
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
Hugging Face |
https://github.com/google-gemma |
发布博客 |
官方文档
许可证: Apache 2.0 | 作者: Google DeepMind
Gemma是Google DeepMind开发的开源模型系列。Gemma 4模型为多模态模型,支持文本和图像输入(小型模型还支持音频)并生成文本输出。本版本包含预训练和指令调优两种变体的开源权重模型。Gemma 4具备高达256K tokens的上下文窗口,并支持超过140种语言的多语言能力。
Gemma 4采用密集型(Dense)和混合专家(Mixture-of-Experts, MoE)两种架构,适用于文本生成、编码和推理等任务。模型提供四种尺寸:E2B、E4B、26B A4B和31B,可部署于高端手机、笔记本电脑到服务器等多种环境,推动最先进AI技术的普及。
Gemma 4引入了关键的能力和架构改进:
system角色的原生支持,实现更结构化和可控的对话。Gemma 4模型旨在在各尺寸下提供前沿性能,目标部署场景从移动和边缘设备(E2B、E4B)到消费级GPU和工作站(26B A4B、31B)。它们适用于推理、代理工作流、编码和多模态理解任务。
模型采用混合注意力机制,将局部滑动窗口注意力与全局注意力交错,确保最后一层始终为全局注意力。这种混合设计在保持轻量级模型的处理速度和低内存占用的同时,不牺牲复杂长上下文任务所需的深度感知能力。为优化长上下文的内存使用,全局层采用统一键值(Unified Keys and Values)并应用比例旋转位置编码(Proportional RoPE, p-RoPE)。
| 属性 | E2B | E4B | 31B Dense |
|---|---|---|---|
| 总参数 | 2.3B 有效(含嵌入层5.1B) | 4.5B 有效(含嵌入层8B) | 30.7B |
| 层数 | 35 | 42 | 60 |
| 滑动窗口 | 512 tokens | 512 tokens | 1024 tokens |
| 上下文长度 | 128K tokens | 128K tokens | 256K tokens |
| 词汇表大小 | 262K | 262K | 262K |
| 支持模态 | 文本、图像、音频 | 文本、图像、音频 | 文本、图像 |
| 视觉编码器参数 | ~150M | ~150M | ~550M |
| 音频编码器参数 | ~300M | ~300M | 无音频 |
E2B和E4B中的"E"代表"有效"参数。小型模型采用每层嵌入(Per-Layer Embeddings, PLE)以最大化设备端部署的参数效率。PLE不为模型添加更多层或参数,而是为每个解码器层提供每个token的小型嵌入。这些嵌入表虽大但仅用于快速查找,因此有效参数 count远小于总参数。
| 属性 | 26B A4B MoE |
|---|---|
| 总参数 | 25.2B |
| 激活参数 | 3.8B |
| 层数 | 30 |
| 滑动窗口 | 1024 tokens |
| 上下文长度 | 256K tokens |
| 词汇表大小 | 262K |
| 专家数量 | 8个激活/128个总数 + 1个共享 |
| 支持模态 | 文本、图像 |
| 视觉编码器参数 | ~550M |
26B A4B中的"A"代表"激活参数",与模型包含的总参数形成对比。通过在推理期间仅激活4B参数子集,混合专家模型的运行速度远快于其26B总参数所暗示的速度。与31B密集型模型相比,它是快速推理的理想选择,运行速度几乎与4B参数模型相当。
这些模型通过大量不同数据集和指标进行评估,涵盖文本生成的各个方面。表中标记的评估结果针对指令调优模型。
| 任务 | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B(无思考模式) |
|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| AIME 2026(无工具) | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 940 | 633 | 110 |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| Tau2(3项平均) | 76.9% | 68.2% | 42.2% | 24.5% | 16.2% |
| HLE(无工具) | 19.5% | 8.7% | - | - | - |
| HLE(带搜索) | 26.5% | 17.2% | - | - | - |
| BigBench Extra Hard | 74.4% | 64.8% | 33.1% | 21.9% | 19.3% |
| MMMLU | 88.4% | 86.3% | 76.6% | 67.4% | 70.7% |
| 视觉任务 | |||||
| MMMU Pro | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| OmniDocBench 1.5(平均编辑距离,越低越好) | 0.131 | 0.149 | 0.181 | 0.290 | 0.365 |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 52.4% | 46.0% |
| MedXPertQA MM | 61.3% | 58.1% | 28.7% | 23.5% | - |
| 音频任务 | |||||
| CoVoST | - | - | 35.54 | 33.47 | - |
| FLEURS(越低越好) | - | - | 0.08 | 0.09 | - |
| 长上下文任务 | |||||
| MRCR v2 8 needle 128k(平均) | 66.4% | 44.1% | 25.4% | 19.1% | 13.5% |
Gemma 4模型处理文本、视觉和音频领域的广泛任务。核心能力包括:
所有使用场景采用以下标准化采样配置:
temperature=1.0top_p=0.95top_k=64与Gemma 3相比,模型使用标准system、assistant和user角色。要正确管理思考过程,使用以下控制令牌:
<|think|>令牌启用思考。移除该令牌则禁用思考。<|channel>thoughtn[内部推理]<channel|><|channel>thoughtn<channel|>[最终答案][!Note]
许多库(如Transformers和llama.cpp)会为您处理聊天模板的复杂性。
除可变宽高比外,Gemma 4通过可配置的视觉令牌预算支持可变图像分辨率,控制用于表示图像的令牌数量。更高的令牌预算保留更多视觉细节,但会增加计算成本;更低的预算适用于不需要细粒度理解的任务,实现更快推理。
音频处理使用以下提示结构:
text将以下{语言}语音片段转录为{语言}文本。 遵循以下特定格式说明: * 仅输出转录文本,不包含换行。 * 转录数字时使用数字形式,例如写1.7而非"一点七",写3而非"三"。
text将以下{源语言}语音片段转录,然后翻译成{目标语言}。 格式要求:先输出{源语言}转录文本,然后换行,再输出字符串"{目标语言}: ",最后是{目标语言}翻译文本。
所有模型支持图像输入,并可将视频作为帧处理;E2B和E4B模型还支持音频输入。音频最大支持长度为30秒。视频在假设每秒处理1帧的情况下最大支持60秒。
我们的预训练数据集是大规模、多样化的集合,涵盖广泛领域和模态,包括网页文档、代码、图像、音频,截止日期为2025年1月。关键组成部分:
这些多样化数据源的组合对于训练能处理各种任务和数据格式的强大多模态模型至关重要。
应用于训练数据的关键数据清洗和过滤方法:
随着开源模型成为企业基础设施的核心,来源和安全性至关重要。Gemma 4由Google DeepMind开发,经过与专有Gemini模型相同的严格安全评估。
Gemma 4模型是与内部安全和负责任AI团队合作开发的。进行了一系列自动化和人工评估以帮助提高模型安全性。这些评估符合Google AI原则以及安全政策,旨在防止生成式AI模型生成有害内容,包括:
在所有安全测试领域,我们看到所有类别的内容安全相比之前的Gemma模型都有重大改进。总体而言,Gemma 4模型在提高安全性方面显著优于Gemma 3和3n模型,同时保持较低的不当拒绝率。所有测试均在无安全过滤器的情况下进行,以评估模型能力和行为。无论是文本到文本还是图像到文本,在所有模型尺寸中,模型产生的策略违规极少,且相比之前的Gemma模型表现出显著改进。
多模态模型(能够处理视觉、语言和/或音频)在各行业和领域有广泛应用。以下潜在用途列表并不全面,旨在提供模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。
以下是 ai/gemma4 相关的常用 Docker 镜像,适用于 不同场景 等不同场景:
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。






来自真实用户的反馈,见证轩辕镜像的优质服务