Gemma 4在llama.cpp上終於穩了


4月2號Google發了Gemma 4,第一天就有llama.cpp支持但bug多。現在所有問題都修完了
E2B、E4B、26B MoE、31B Dense
31B在Arena AI排行第3,26B排第6
開源模型最強梯隊
用--chat-template-file加載interleaved模版
建議開啟--cache-ram 2048
上下文長度根據顯存來
去年本地最好的是Llama 3.1 70B量化版,勉強能用
現在Gemma 4 31B Q5在Mac Studio上流暢跑,接近GPT-4級別
不依賴API的AI應用開始有商業可行性。數據不出本機,成本為零,延遲極低
對於一人企業,本地模型是真正的基礎設施。競爭對手在付API費,你的邊際成本是電費
Gemma 4 + llama.cpp = 本地推理最優解,可以上生產了
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言