Google 推出 Gemma 4 開源模型：「本地端推理」強化 AI 代理工作流效率

鏈新聞abmedia

2026-04-03 03:24:51

Google 于 2026 年 4 月 2 日正式发布 Gemma 4，作为迄今为止最强大的开源模型之一，Gemma 4 在原生函数调用、代理工作流程、多模态感知方面实现重大突破，并采用商业友好的 Apache 2.0 授权，为全球开发者与企业带来前所未有的自由度与灵活性。

Gemma 4 是什么？核心特色一次看

Gemma 4 是 Google DeepMind 推出的开源大型语言模型系列，与 Gemini 系列模型共享技术。核心亮点包括：

进阶推理能力：支援多步骤规划与深层逻辑推理，在数学与指令遵循基准测试上大幅超越同级开源模型。

原生代理工作流：内建函数调用、结构化 JSON 输出与系统指令支援，可直接驱动自主 AI 代理与多步骤任务执行。

本地端部署：E2B、E4B 版本专为手机等各设备优化，可完全离线运行。

全面多模态支援：所有版本原生支援图片与影片输入；E2B、E4B 额外支援原生音讯输入。

超长上下文视窗：边缘模型支援 128K token，较大模型最高达 256K token，可在单次提示中传入整个程式码库或长篇文件。

高品质程式码生成：支援离线程式码编写，可将个人工作站打造为本地优先的 AI 程式设计助手。

140+ 语言原生训练：支援全球超过 140 种语言，助力开发者打造服务国际用户的多语言应用。

四种模型，最大化支援所有应用场景

Gemma 4 共推出四种版本，针对不同硬件环境与应用场景进行优化：

Effective 2B（E2B）：专为行动装置与 IoT 设计，支援 128K 上下文视窗、原生音讯输入，可完全离线运行于 Android 手机、Raspberry Pi 等边缘设备。

Effective 4B（E4B）：同样针对边缘端优化，具备多模态能力，在推理效能与记忆体占用之间取得出色平衡。

26B 混合专家（MoE）：推理时仅激活 38 亿参数，以极低延迟实现高速推理，适合注重吞吐量的本地工作站部署。

31B Dense：旗舰版本，在 Arena AI 文字排行榜上排名第三，提供最高品质的输出，并可在单张 80GB NVIDIA H100 GPU 上完整运行。

26B MoE 与 31B Dense 的量化版本更能在消费级显示卡上原生执行，让强大的 AI 推理能力真正普及到个人开发者的桌面。

本地端推理的重大突破：告别 API 依赖

Gemma 4 最受瞩目的特点之一，在于强调“本地端（On-device）推理”能力。E2B 与 E4B 模型专为最大化运算效率与记忆体效率而设计，可在手机、Raspberry Pi、NVIDIA Jetson Orin Nano 等边缘设备上以近乎零延迟的运行。

这对开发者影响甚大，过去调用云端 AI API 需要承担每次请求的费用，且存在网络延迟与资料隐私风险。而 Gemma 4 的本地端推理能力，让开发者能在自有硬件上运行模型，大幅降低 API 调用成本，同时享有完整的资料主权与离线可用性。

Google 进一步与 Pixel 团队以及高通、联发科等行动硬件伙伴紧密合作，确保 E2B/E4B 在主流 Android 装置上达到最佳效能，并为 Android 开发者开放 AICore Developer Preview，以便为整合 Gemini Nano 4 进行开发。

强化 AI 代理工作流程，原生函数调用提高效率

Gemma 4 在代理工作流程（Agentic Workflows）方面也实现了原生支援，这是与上一代最显著的功能跃升之一。该模型支援：

原生函数调用（Function Calling）：模型可直接调用外部工具与 API，执行实际操作，例如查询数据库、调用第三方服务等。

结构化 JSON 输出：确保模型输出符合特定格式，便于与后端系统无缝整合。

原生系统指令（System Instructions）：开发者可在系统层级设置模型行为，让 AI 代理的角色设定更加稳定一致。

这些能力让 Gemma 4 得以成为一个全能的自主 AI 代理，不仅能回答问题，更能主动与工具互动、自动执行多步骤工作流程。

多模态全面升级：视觉、音讯、长文一应俱全

Gemma 4 全系列模型均具备原生多模态能力，大幅扩展了可处理的任务类型。

图片与影片

在视觉理解方面，所有模型均支援图片与影片的原生处理，支援可变解析度，在 OCR（光学字元辨识）与图表理解等视觉任务上表现突出。

音讯输入

在音讯方面，E2B 与 E4B 边缘模型额外支援原生音讯输入，可直接进行语音辨识与理解，无需额外的语音转文字步骤。

超长上下文

在文件方面，边缘模型支援 128K token 上下文视窗，较大模型更提供高达 256K token，让开发者能在单次提示中传入整个程式码库或长篇文件。

离线程式码生成

支援高品质离线程式码编写，可将个人工作站化身为本地优先的 AI 程式设计助手。

140+ 语言支援

原生训练超过 140 种语言，助力开发者打造服务全球用户的应用。

Apache 2.0 授权：开源生态里程碑

Gemma 4 采用 Apache 2.0 授权发布，这是开源社群中商业友好度最高的授权之一。开发者与企业可自由使用、修改、分发模型，无论是部署在私有基础设施、混合云环境，还是嵌入商业产品中，均不受额外限制。

丰富的生态系统支援

Gemma 4 同时获得业界主要工具的全面支援，包括 Hugging Face（Transformers、TRL、Transformers.js）、Ollama、vLLM、llama.cpp、MLX、LM Studio、NVIDIA NIM 与 NeMo、Keras、Vertex AI 等。

开发者可透过 Hugging Face、Kaggle 或 Ollama 直接下载模型权重，并在 Google AI Studio 中线上体验 31B 与 26B MoE 版本，或透过 Google AI Edge Gallery 试用 E2B 与 E4B 版本。

对于需要大规模部署的企业，Google Cloud 提供完整的云端解决方案，涵盖 Vertex AI、Cloud Run、GKE、Sovereign Cloud 以及 TPU 加速推理服务，消除本地算力的上限限制。

降低成本但不牺牲能力：Gemma 4 成开发者新选择

Gemma 4 的发布是开源 AI 模型的一个里程碑，作为具备生产部署能力的企业级工具，它能够在手机上离线运行、调用外部工具自主完成任务、处理冗长文件与多模态输入，同时让所有人得以自由使用。

对于想要在降低 API 调用成本的同时保有 AI 能力的开发者与企业来说，Gemma 4 提供了一条极具吸引力的路径。

这篇文章 Google 推出 Gemma 4 开源模型：“本地端推理”强化 AI 代理工作流程效率最早出现于鏈新聞 ABMedia。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论