Google 于 2026 年 4 月 2 日正式发布 Gemma 4,作为迄今为止最强大的开源模型之一,Gemma 4 在原生函数调用、代理工作流程、多模态感知方面实现重大突破,并采用商业友好的 Apache 2.0 授权,为全球开发者与企业带来前所未有的自由度与灵活性。
Gemma 4 是什么?核心特色一次看
Gemma 4 是 Google DeepMind 推出的开源大型语言模型系列,与 Gemini 系列模型共享技术。核心亮点包括:
进阶推理能力:支援多步骤规划与深层逻辑推理,在数学与指令遵循基准测试上大幅超越同级开源模型。
原生代理工作流:内建函数调用、结构化 JSON 输出与系统指令支援,可直接驱动自主 AI 代理与多步骤任务执行。
本地端部署:E2B、E4B 版本专为手机等各设备优化,可完全离线运行。
全面多模态支援:所有版本原生支援图片与影片输入;E2B、E4B 额外支援原生音讯输入。
超长上下文视窗:边缘模型支援 128K token,较大模型最高达 256K token,可在单次提示中传入整个程式码库或长篇文件。
高品质程式码生成:支援离线程式码编写,可将个人工作站打造为本地优先的 AI 程式设计助手。
140+ 语言原生训练:支援全球超过 140 种语言,助力开发者打造服务国际用户的多语言应用。
四种模型,最大化支援所有应用场景
Gemma 4 共推出四种版本,针对不同硬件环境与应用场景进行优化:
Effective 2B(E2B):专为行动装置与 IoT 设计,支援 128K 上下文视窗、原生音讯输入,可完全离线运行于 Android 手机、Raspberry Pi 等边缘设备。
Effective 4B(E4B):同样针对边缘端优化,具备多模态能力,在推理效能与记忆体占用之间取得出色平衡。
26B 混合专家(MoE):推理时仅激活 38 亿参数,以极低延迟实现高速推理,适合注重吞吐量的本地工作站部署。
31B Dense:旗舰版本,在 Arena AI 文字排行榜上排名第三,提供最高品质的输出,并可在单张 80GB NVIDIA H100 GPU 上完整运行。
26B MoE 与 31B Dense 的量化版本更能在消费级显示卡上原生执行,让强大的 AI 推理能力真正普及到个人开发者的桌面。
本地端推理的重大突破:告别 API 依赖
Gemma 4 最受瞩目的特点之一,在于强调“本地端(On-device)推理”能力。E2B 与 E4B 模型专为最大化运算效率与记忆体效率而设计,可在手机、Raspberry Pi、NVIDIA Jetson Orin Nano 等边缘设备上以近乎零延迟的运行。
这对开发者影响甚大,过去调用云端 AI API 需要承担每次请求的费用,且存在网络延迟与资料隐私风险。而 Gemma 4 的本地端推理能力,让开发者能在自有硬件上运行模型,大幅降低 API 调用成本,同时享有完整的资料主权与离线可用性。
Google 进一步与 Pixel 团队以及高通、联发科等行动硬件伙伴紧密合作,确保 E2B/E4B 在主流 Android 装置上达到最佳效能,并为 Android 开发者开放 AICore Developer Preview,以便为整合 Gemini Nano 4 进行开发。
强化 AI 代理工作流程,原生函数调用提高效率
Gemma 4 在代理工作流程(Agentic Workflows)方面也实现了原生支援,这是与上一代最显著的功能跃升之一。该模型支援:
原生函数调用(Function Calling):模型可直接调用外部工具与 API,执行实际操作,例如查询数据库、调用第三方服务等。
结构化 JSON 输出:确保模型输出符合特定格式,便于与后端系统无缝整合。
原生系统指令(System Instructions):开发者可在系统层级设置模型行为,让 AI 代理的角色设定更加稳定一致。
这些能力让 Gemma 4 得以成为一个全能的自主 AI 代理,不仅能回答问题,更能主动与工具互动、自动执行多步骤工作流程。
多模态全面升级:视觉、音讯、长文一应俱全
Gemma 4 全系列模型均具备原生多模态能力,大幅扩展了可处理的任务类型。
图片与影片
在视觉理解方面,所有模型均支援图片与影片的原生处理,支援可变解析度,在 OCR(光学字元辨识)与图表理解等视觉任务上表现突出。
音讯输入
在音讯方面,E2B 与 E4B 边缘模型额外支援原生音讯输入,可直接进行语音辨识与理解,无需额外的语音转文字步骤。
超长上下文
在文件方面,边缘模型支援 128K token 上下文视窗,较大模型更提供高达 256K token,让开发者能在单次提示中传入整个程式码库或长篇文件。
离线程式码生成
支援高品质离线程式码编写,可将个人工作站化身为本地优先的 AI 程式设计助手。
140+ 语言支援
原生训练超过 140 种语言,助力开发者打造服务全球用户的应用。
Apache 2.0 授权:开源生态里程碑
Gemma 4 采用 Apache 2.0 授权发布,这是开源社群中商业友好度最高的授权之一。开发者与企业可自由使用、修改、分发模型,无论是部署在私有基础设施、混合云环境,还是嵌入商业产品中,均不受额外限制。
丰富的生态系统支援
Gemma 4 同时获得业界主要工具的全面支援,包括 Hugging Face(Transformers、TRL、Transformers.js)、Ollama、vLLM、llama.cpp、MLX、LM Studio、NVIDIA NIM 与 NeMo、Keras、Vertex AI 等。
开发者可透过 Hugging Face、Kaggle 或 Ollama 直接下载模型权重,并在 Google AI Studio 中线上体验 31B 与 26B MoE 版本,或透过 Google AI Edge Gallery 试用 E2B 与 E4B 版本。
对于需要大规模部署的企业,Google Cloud 提供完整的云端解决方案,涵盖 Vertex AI、Cloud Run、GKE、Sovereign Cloud 以及 TPU 加速推理服务,消除本地算力的上限限制。
降低成本但不牺牲能力:Gemma 4 成开发者新选择
Gemma 4 的发布是开源 AI 模型的一个里程碑,作为具备生产部署能力的企业级工具,它能够在手机上离线运行、调用外部工具自主完成任务、处理冗长文件与多模态输入,同时让所有人得以自由使用。
对于想要在降低 API 调用成本的同时保有 AI 能力的开发者与企业来说,Gemma 4 提供了一条极具吸引力的路径。
这篇文章 Google 推出 Gemma 4 开源模型:“本地端推理”强化 AI 代理工作流程效率 最早出现于 鏈新聞 ABMedia。