ai/gemma4

Docker AI 官方镜像

Gemma 4是Google DeepMind开发的多模态开源AI模型系列，支持文本、图像、音频处理，优化了推理、编码能力和长上下文处理，提供E2B、E4B、26B A4B、31B四种尺寸，适用于从移动设备到服务器的多样化部署场景。

22 次收藏下载次数: 0状态：社区镜像维护者：Docker AI 官方镜像仓库类型：镜像最近更新：9 天前

轩辕镜像，不浪费每一次拉取。点击查看

中文简介版本下载

轩辕镜像，不浪费每一次拉取。点击查看

Gemma 4 镜像文档

Hugging Face | https://github.com/google-gemma | 发布博客 | 官方文档
许可证: Apache 2.0 | 作者: Google DeepMind

镜像概述和主要用途

Gemma是Google DeepMind开发的开源模型系列。Gemma 4模型为多模态模型，支持文本和图像输入（小型模型还支持音频）并生成文本输出。本版本包含预训练和指令调优两种变体的开源权重模型。Gemma 4具备高达256K tokens的上下文窗口，并支持超过140种语言的多语言能力。

Gemma 4采用密集型（Dense）和混合专家（Mixture-of-Experts, MoE）两种架构，适用于文本生成、编码和推理等任务。模型提供四种尺寸：E2B、E4B、26B A4B和31B，可部署于高端手机、笔记本电脑到服务器等多种环境，推动最先进AI技术的普及。

核心功能和特性

Gemma 4引入了关键的能力和架构改进：

推理能力 - 全系列模型均设计为高性能推理器，支持可配置的思考模式。
扩展多模态 - 支持文本、可变宽高比和分辨率的图像（所有模型）、视频以及音频（E2B和E4B模型原生支持）。
多样化高效架构 - 提供不同尺寸的密集型和混合专家变体，支持可扩展部署。
设备端优化 - 小型模型专为笔记本电脑和移动设备上的高效本地执行设计。
增大的上下文窗口 - 小型模型支持128K上下文窗口，中型模型支持256K。
增强的编码和代理能力 - 在编码基准测试中取得显著改进，同时原生支持函数调用，为高性能自主代理提供支持。
原生系统提示支持 - Gemma 4引入对system角色的原生支持，实现更结构化和可控的对话。

模型概述

Gemma 4模型旨在在各尺寸下提供前沿性能，目标部署场景从移动和边缘设备（E2B、E4B）到消费级GPU和工作站（26B A4B、31B）。它们适用于推理、代理工作流、编码和多模态理解任务。

模型采用混合注意力机制，将局部滑动窗口注意力与全局注意力交错，确保最后一层始终为全局注意力。这种混合设计在保持轻量级模型的处理速度和低内存占用的同时，不牺牲复杂长上下文任务所需的深度感知能力。为优化长上下文的内存使用，全局层采用统一键值（Unified Keys and Values）并应用比例旋转位置编码（Proportional RoPE, p-RoPE）。

密集型模型（Dense Models）

属性	E2B	E4B	31B Dense
总参数	2.3B 有效（含嵌入层5.1B）	4.5B 有效（含嵌入层8B）	30.7B
层数	35	42	60
滑动窗口	512 tokens	512 tokens	1024 tokens
上下文长度	128K tokens	128K tokens	256K tokens
词汇表大小	262K	262K	262K
支持模态	文本、图像、音频	文本、图像、音频	文本、图像
视觉编码器参数	~150M	~150M	~550M
音频编码器参数	~300M	~300M	无音频

E2B和E4B中的"E"代表"有效"参数。小型模型采用每层嵌入（Per-Layer Embeddings, PLE）以最大化设备端部署的参数效率。PLE不为模型添加更多层或参数，而是为每个解码器层提供每个token的小型嵌入。这些嵌入表虽大但仅用于快速查找，因此有效参数 count远小于总参数。

混合专家模型（Mixture-of-Experts, MoE）

属性	26B A4B MoE
总参数	25.2B
激活参数	3.8B
层数	30
滑动窗口	1024 tokens
上下文长度	256K tokens
词汇表大小	262K
专家数量	8个激活/128个总数 + 1个共享
支持模态	文本、图像
视觉编码器参数	~550M

26B A4B中的"A"代表"激活参数"，与模型包含的总参数形成对比。通过在推理期间仅激活4B参数子集，混合专家模型的运行速度远快于其26B总参数所暗示的速度。与31B密集型模型相比，它是快速推理的理想选择，运行速度几乎与4B参数模型相当。

基准测试结果

这些模型通过大量不同数据集和指标进行评估，涵盖文本生成的各个方面。表中标记的评估结果针对指令调优模型。

任务	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B（无思考模式）
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026（无工具）	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	940	633	110
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%
Tau2（3项平均）	76.9%	68.2%	42.2%	24.5%	16.2%
HLE（无工具）	19.5%	8.7%	-	-	-
HLE（带搜索）	26.5%	17.2%	-	-	-
BigBench Extra Hard	74.4%	64.8%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
视觉任务
MMMU Pro	76.9%	73.8%	52.6%	44.2%	49.7%
OmniDocBench 1.5（平均编辑距离，越低越好）	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	28.7%	23.5%	-
音频任务
CoVoST	-	-	35.54	33.47	-
FLEURS（越低越好）	-	-	0.08	0.09	-
长上下文任务
MRCR v2 8 needle 128k（平均）	66.4%	44.1%	25.4%	19.1%	13.5%

核心能力

Gemma 4模型处理文本、视觉和音频领域的广泛任务。核心能力包括：

思考能力 - 内置推理模式，允许模型在回答前逐步思考。
长上下文 - 上下文窗口高达128K tokens（E2B/E4B）和256K tokens（26B A4B/31B）。
图像理解 - 对象检测、文档/PDF解析、屏幕和UI理解、图表理解、OCR（含多语言）、手写识别和指向。支持可变宽高比和分辨率的图像处理。
视频理解 - 通过处理帧序列分析视频。
交错多模态输入 - 在单个提示中自由混合文本和图像。
函数调用 - 原生支持结构化工具使用，支持代理工作流。
编码 - 代码生成、补全和修正。
多语言 - 开箱即支持35+种语言，预训练覆盖140+种语言。
音频（仅E2B和E4B） - 自动语音识别（ASR）和多语言语音到翻译文本转换。

使用方法和配置说明

1. 采样参数

所有使用场景采用以下标准化采样配置：

temperature=1.0
top_p=0.95
top_k=64

2. 思考模式配置

与Gemma 3相比，模型使用标准system、assistant和user角色。要正确管理思考过程，使用以下控制令牌：

触发思考：在系统提示开头包含<|think|>令牌启用思考。移除该令牌则禁用思考。
标准生成：启用思考时，模型将输出内部推理，然后使用以下结构生成最终答案：
<|channel>thoughtn[内部推理]<channel|>
禁用思考行为：除E2B和E4B变体外，若禁用思考，模型仍会生成标签但思考块为空：
<|channel>thoughtn<channel|>[最终答案]

[!Note]
许多库（如Transformers和llama.cpp）会为您处理聊天模板的复杂性。

3. 多轮对话

历史中不含思考内容：在多轮对话中，历史模型输出应仅包含最终响应。前一轮模型的思考内容不得添加到下一轮用户输入之前。

4. 模态顺序

对于多模态输入的最佳性能，在提示中将图像和/或音频内容置于文本之前。

5. 可变图像分辨率

除可变宽高比外，Gemma 4通过可配置的视觉令牌预算支持可变图像分辨率，控制用于表示图像的令牌数量。更高的令牌预算保留更多视觉细节，但会增加计算成本；更低的预算适用于不需要细粒度理解的任务，实现更快推理。

支持的令牌预算：70、140、280、560和1120。
- 对分类、 captioning或视频理解等任务使用较低预算，此时更快的推理和处理多帧比细粒度细节更重要。
- 对OCR、文档解析或读取小文本等任务使用较高预算。

6. 音频处理

音频处理使用以下提示结构：

音频语音识别（ASR）

text
将以下{语言}语音片段转录为{语言}文本。

遵循以下特定格式说明：  
* 仅输出转录文本，不包含换行。  
* 转录数字时使用数字形式，例如写1.7而非"一点七"，写3而非"三"。

自动语音翻译（AST）

text
将以下{源语言}语音片段转录，然后翻译成{目标语言}。  
格式要求：先输出{源语言}转录文本，然后换行，再输出字符串"{目标语言}: "，最后是{目标语言}翻译文本。

7. 音频和视频长度限制

所有模型支持图像输入，并可将视频作为帧处理；E2B和E4B模型还支持音频输入。音频最大支持长度为30秒。视频在假设每秒处理1帧的情况下最大支持60秒。

模型数据

训练数据集

我们的预训练数据集是大规模、多样化的集合，涵盖广泛领域和模态，包括网页文档、代码、图像、音频，截止日期为2025年1月。关键组成部分：

网页文档：多样化的网页文本确保模型接触广泛的语言风格、主题和词汇。训练数据集包含140多种语言的内容。
代码：接触代码帮助模型学习编程语言的语法和模式，提高代码生成和理解代码相关问题的能力。
数学：数学文本训练帮助模型学习逻辑推理、符号表示和解决数学查询。
图像：广泛的图像使模型能够执行图像分析和视觉数据提取任务。

这些多样化数据源的组合对于训练能处理各种任务和数据格式的强大多模态模型至关重要。

数据预处理

应用于训练数据的关键数据清洗和过滤方法：

CSAM过滤：在数据准备过程的多个阶段应用严格的儿童性虐待材料（CSAM）过滤，确保排除有害和非法内容。
敏感数据过滤：为使Gemma预训练模型安全可靠，使用自动化技术从训练集中过滤某些个人信息和其他敏感数据。
其他方法：根据我们的政策进行基于内容质量和安全性的过滤。

伦理与安全

随着开源模型成为企业基础设施的核心，来源和安全性至关重要。Gemma 4由Google DeepMind开发，经过与专有Gemini模型相同的严格安全评估。

评估方法

Gemma 4模型是与内部安全和负责任AI团队合作开发的。进行了一系列自动化和人工评估以帮助提高模型安全性。这些评估符合Google AI原则以及安全政策，旨在防止生成式AI模型生成有害内容，包括：

与儿童性虐待材料和剥削相关的内容
危险内容（如鼓励自杀或指导可能造成现实伤害的活动）
性露骨内容
仇恨言论（如非人化受保护群体成员）
骚扰（如鼓励对他人的暴力）

评估结果

在所有安全测试领域，我们看到所有类别的内容安全相比之前的Gemma模型都有重大改进。总体而言，Gemma 4模型在提高安全性方面显著优于Gemma 3和3n模型，同时保持较低的不当拒绝率。所有测试均在无安全过滤器的情况下进行，以评估模型能力和行为。无论是文本到文本还是图像到文本，在所有模型尺寸中，模型产生的策略违规极少，且相比之前的Gemma模型表现出显著改进。

使用场景和适用范围

预期用途

多模态模型（能够处理视觉、语言和/或音频）在各行业和领域有广泛应用。以下潜在用途列表并不全面，旨在提供模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。

内容创作与通信
- 文本生成：生成创意文本格式，如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话AI：为客户服务、虚拟助手或交互式应用提供对话界面。
- 文本摘要：生成文本语料库、研究论文或报告的简明摘要。

查看更多 gemma4 相关镜像 →

轩辕镜像配置手册

探索更多轩辕镜像的使用方法，找到最适合您系统的配置方式

Docker 配置

登录仓库拉取

通过 Docker 登录认证访问私有仓库

专属域名拉取

无需登录使用专属域名

K8s Containerd

Kubernetes 集群配置 Containerd

K3s

K3s 轻量级 Kubernetes 镜像加速

Dev Containers

VS Code Dev Containers 配置

Podman

Podman 容器引擎配置

Singularity/Apptainer

HPC 科学计算容器配置

其他仓库配置

ghcr、Quay、nvcr 等镜像仓库

Harbor 镜像源配置

Harbor Proxy Repository 对接专属域名

Portainer 镜像源配置

Portainer Registries 加速拉取

Nexus 镜像源配置

Nexus3 Docker Proxy 内网缓存

系统配置

Linux

在 Linux 系统配置镜像服务

Windows/Mac

在 Docker Desktop 配置镜像

MacOS OrbStack

MacOS OrbStack 容器配置

Docker Compose

Docker Compose 项目配置

NAS 设备

群晖

Synology 群晖 NAS 配置

飞牛

飞牛 fnOS 系统配置镜像

绿联

绿联 NAS 系统配置镜像

威联通

QNAP 威联通 NAS 配置

极空间

极空间 NAS 系统配置服务

网络设备

爱快路由

爱快 iKuai 路由系统配置

宝塔面板

在宝塔面板一键配置镜像

需要其他帮助？请查看我们的常见问题Docker 镜像访问常见问题解答或提交工单

镜像拉取常见问题

使用与功能问题

配置了专属域名后，docker search 为什么会报错？

docker search 限制

Docker Hub 上有的镜像，为什么在轩辕镜像网站搜不到？

站内搜不到镜像

机器不能直连外网时，怎么用 docker save / load 迁镜像？

离线 save/load

docker pull 拉插件报错（plugin v1+json）怎么办？

插件要用 plugin install

WSL 里 Docker 拉镜像特别慢，怎么排查和优化？

WSL 拉取慢

轩辕镜像安全吗？如何用 digest 校验镜像没被篡改？

安全与 digest

第一次用轩辕镜像拉 Docker 镜像，要怎么登录和配置？

新手拉取配置

错误码与失败问题

docker pull 提示 manifest unknown 怎么办？

manifest unknown

docker pull 提示 no matching manifest 怎么办？

no matching manifest（架构）

镜像已拉取完成，却提示 invalid tar header 或 failed to register layer 怎么办？

invalid tar header（解压）

Docker pull 时 HTTPS / TLS 证书验证失败怎么办？

TLS 证书失败

Docker pull 时 DNS 解析超时或连不上仓库怎么办？

DNS 超时

Docker 拉取出现 410 Gone 怎么办？

410 Gone 排查

出现 402 或「流量用尽」提示怎么办？

402 与流量用尽

Docker 拉取提示 UNAUTHORIZED（401）怎么办？

401 认证失败

遇到 429 Too Many Requests（请求太频繁）怎么办？

429 限流

docker login 提示 Cannot autolaunch D-Bus，还算登录成功吗？

D-Bus 凭证提示

为什么会出现「单层超过 20GB」或 413，无法加速拉取？

413 与超大单层

账号 / 计费 / 权限

轩辕镜像免费版和专业版有什么区别？

免费版与专业版区别

轩辕镜像支持哪些 Docker 镜像仓库？

支持的镜像仓库

镜像拉取失败还会不会扣流量？

失败是否计费

麒麟 V10 / 统信 UOS 提示 KYSEC 权限不够怎么办？

KYSEC 拦截脚本

如何在轩辕镜像申请开具发票？

申请开票

怎么修改轩辕镜像的网站登录和仓库登录密码？

修改登录密码

如何注销轩辕镜像账户？要注意什么？

注销账户

配置与原理类

写了 registry-mirrors，为什么还是走官方或仍然报错？

mirrors 不生效

怎么用 docker tag 去掉镜像名里的轩辕域名前缀？

去掉域名前缀

如何拉取指定 CPU 架构的镜像（如 ARM64、AMD64）？

指定架构拉取

用轩辕镜像拉镜像时快时慢，常见原因有哪些？

拉取速度原因

查看全部问题→

用户好评

来自真实用户的反馈，见证轩辕镜像的优质服务

oldzhang

运维工程师

Linux服务器

"Docker访问体验非常流畅，大镜像也能快速完成下载。"