Gemma 4 finally stable on llama.cpp


Le 2 avril, Google a lancé Gemma 4, supporté par llama.cpp dès le premier jour mais avec de nombreux bugs. Maintenant, tous les problèmes sont résolus
E2B, E4B, 26B MoE, 31B Dense
31B classé 3ème dans le classement Arena AI, 26B en 6ème position
La meilleure équipe de modèles open source
Utilisez --chat-template-file pour charger le modèle intercalé
Il est conseillé d’activer --cache-ram 2048
La longueur du contexte dépend de la mémoire vidéo
L’année dernière, le meilleur modèle local était la version quantifiée de Llama 3.1 70B, à peine utilisable
Maintenant, Gemma 4 31B Q5 tourne fluide sur Mac Studio, proche du niveau GPT-4
Les applications d’IA sans dépendance à l’API commencent à être commercialement viables. Les données restent sur la machine, coût zéro, latence très faible
Pour une entreprise individuelle, le modèle local est la véritable infrastructure. Les concurrents paient pour l’API, votre coût marginal est l’électricité
Gemma 4 + llama.cpp = solution optimale pour l’inférence locale, peut passer en production
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler