热门搜索:

ai/gemma4

Gemma 4是Google DeepMind开发的多模态开源AI模型系列，支持文本、图像、音频处理，优化了推理、编码能力和长上下文处理，提供E2B、E4B、26B A4B、31B四种尺寸，适用于从移动设备到服务器的多样化部署场景。

35 次收藏下载次数: 0状态：社区镜像维护者：Docker AI 官方镜像仓库类型：镜像最近更新：2 个月前

让 AI 帮你使用轩辕镜像？ · 展开查看说明

如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具，协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题，请先让 AI 阅读并遵守轩辕镜像的规则文档。

只需在 AI 对话中先发送下面这句话即可：

请先完整阅读并严格遵守以下文档中的全部规则与要求：

https://xuanyuan.cloud/agents.md

在未充分阅读并理解该文档前，不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。

查看 agents.md 用法指南与完整示范。国内用户首推元宝 AI、DeepSeek 的深度思考模式，不推荐豆包 AI；Cursor 等编辑器可在对话 @ 该链接，或加入 User Rules。若 AI 无法访问外链，可打开说明文档复制全文粘贴。文档会随站点更新，复制内容可能过期，建议定期检查。

轩辕镜像，不浪费每一次拉取。点击查看

DockerHub 官方简介

轩辕镜像中文简介

标签下载

镜像标签列表与下载命令

轩辕镜像，不浪费每一次拉取。点击查看

Gemma 4 镜像文档

Hugging Face | https://github.com/google-gemma | 发布博客 | 官方文档
许可证: Apache 2.0 | 作者: Google DeepMind

镜像概述和主要用途

Gemma是Google DeepMind开发的开源模型系列。Gemma 4模型为多模态模型，支持文本和图像输入（小型模型还支持音频）并生成文本输出。本版本包含预训练和指令调优两种变体的开源权重模型。Gemma 4具备高达256K tokens的上下文窗口，并支持超过140种语言的多语言能力。

Gemma 4采用密集型（Dense）和混合专家（Mixture-of-Experts, MoE）两种架构，适用于文本生成、编码和推理等任务。模型提供四种尺寸：E2B、E4B、26B A4B和31B，可部署于高端手机、笔记本电脑到服务器等多种环境，推动最先进AI技术的普及。

核心功能和特性

Gemma 4引入了关键的能力和架构改进：

推理能力 - 全系列模型均设计为高性能推理器，支持可配置的思考模式。
扩展多模态 - 支持文本、可变宽高比和分辨率的图像（所有模型）、视频以及音频（E2B和E4B模型原生支持）。
多样化高效架构 - 提供不同尺寸的密集型和混合专家变体，支持可扩展部署。
设备端优化 - 小型模型专为笔记本电脑和移动设备上的高效本地执行设计。
增大的上下文窗口 - 小型模型支持128K上下文窗口，中型模型支持256K。
增强的编码和代理能力 - 在编码基准测试中取得显著改进，同时原生支持函数调用，为高性能自主代理提供支持。
原生系统提示支持 - Gemma 4引入对system角色的原生支持，实现更结构化和可控的对话。

模型概述

Gemma 4模型旨在在各尺寸下提供前沿性能，目标部署场景从移动和边缘设备（E2B、E4B）到消费级GPU和工作站（26B A4B、31B）。它们适用于推理、代理工作流、编码和多模态理解任务。

模型采用混合注意力机制，将局部滑动窗口注意力与全局注意力交错，确保最后一层始终为全局注意力。这种混合设计在保持轻量级模型的处理速度和低内存占用的同时，不牺牲复杂长上下文任务所需的深度感知能力。为优化长上下文的内存使用，全局层采用统一键值（Unified Keys and Values）并应用比例旋转位置编码（Proportional RoPE, p-RoPE）。

密集型模型（Dense Models）

属性	E2B	E4B	31B Dense
总参数	2.3B 有效（含嵌入层5.1B）	4.5B 有效（含嵌入层8B）	30.7B
层数	35	42	60
滑动窗口	512 tokens	512 tokens	1024 tokens
上下文长度	128K tokens	128K tokens	256K tokens
词汇表大小	262K	262K	262K
支持模态	文本、图像、音频	文本、图像、音频	文本、图像
视觉编码器参数	~150M	~150M	~550M
音频编码器参数	~300M	~300M	无音频

E2B和E4B中的"E"代表"有效"参数。小型模型采用每层嵌入（Per-Layer Embeddings, PLE）以最大化设备端部署的参数效率。PLE不为模型添加更多层或参数，而是为每个解码器层提供每个token的小型嵌入。这些嵌入表虽大但仅用于快速查找，因此有效参数 count远小于总参数。

混合专家模型（Mixture-of-Experts, MoE）

属性	26B A4B MoE
总参数	25.2B
激活参数	3.8B
层数	30
滑动窗口	1024 tokens
上下文长度	256K tokens
词汇表大小	262K
专家数量	8个激活/128个总数 + 1个共享
支持模态	文本、图像
视觉编码器参数	~550M

26B A4B中的"A"代表"激活参数"，与模型包含的总参数形成对比。通过在推理期间仅激活4B参数子集，混合专家模型的运行速度远快于其26B总参数所暗示的速度。与31B密集型模型相比，它是快速推理的理想选择，运行速度几乎与4B参数模型相当。

基准测试结果

这些模型通过大量不同数据集和指标进行评估，涵盖文本生成的各个方面。表中标记的评估结果针对指令调优模型。

任务	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B（无思考模式）
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026（无工具）	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	940	633	110
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%
Tau2（3项平均）	76.9%	68.2%	42.2%	24.5%	16.2%
HLE（无工具）	19.5%	8.7%	-	-	-
HLE（带搜索）	26.5%	17.2%	-	-	-
BigBench Extra Hard	74.4%	64.8%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
视觉任务
MMMU Pro	76.9%	73.8%	52.6%	44.2%	49.7%
OmniDocBench 1.5（平均编辑距离，越低越好）	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	28.7%	23.5%	-
音频任务
CoVoST	-	-	35.54	33.47	-
FLEURS（越低越好）	-	-	0.08	0.09	-
长上下文任务
MRCR v2 8 needle 128k（平均）	66.4%	44.1%	25.4%	19.1%	13.5%

核心能力

Gemma 4模型处理文本、视觉和音频领域的广泛任务。核心能力包括：

思考能力 - 内置推理模式，允许模型在回答前逐步思考。
长上下文 - 上下文窗口高达128K tokens（E2B/E4B）和256K tokens（26B A4B/31B）。
图像理解 - 对象检测、文档/PDF解析、屏幕和UI理解、图表理解、OCR（含多语言）、手写识别和指向。支持可变宽高比和分辨率的图像处理。
视频理解 - 通过处理帧序列分析视频。
交错多模态输入 - 在单个提示中自由混合文本和图像。
函数调用 - 原生支持结构化工具使用，支持代理工作流。
编码 - 代码生成、补全和修正。
多语言 - 开箱即支持35+种语言，预训练覆盖140+种语言。
音频（仅E2B和E4B） - 自动语音识别（ASR）和多语言语音到翻译文本转换。

使用方法和配置说明

1. 采样参数

所有使用场景采用以下标准化采样配置：

temperature=1.0
top_p=0.95
top_k=64

2. 思考模式配置

与Gemma 3相比，模型使用标准system、assistant和user角色。要正确管理思考过程，使用以下控制令牌：

触发思考：在系统提示开头包含<|think|>令牌启用思考。移除该令牌则禁用思考。
标准生成：启用思考时，模型将输出内部推理，然后使用以下结构生成最终答案：
<|channel>thoughtn[内部推理]<channel|>
禁用思考行为：除E2B和E4B变体外，若禁用思考，模型仍会生成标签但思考块为空：
<|channel>thoughtn<channel|>[最终答案]

[!Note]
许多库（如Transformers和llama.cpp）会为您处理聊天模板的复杂性。

3. 多轮对话

历史中不含思考内容：在多轮对话中，历史模型输出应仅包含最终响应。前一轮模型的思考内容不得添加到下一轮用户输入之前。

4. 模态顺序

对于多模态输入的最佳性能，在提示中将图像和/或音频内容置于文本之前。

5. 可变图像分辨率

除可变宽高比外，Gemma 4通过可配置的视觉令牌预算支持可变图像分辨率，控制用于表示图像的令牌数量。更高的令牌预算保留更多视觉细节，但会增加计算成本；更低的预算适用于不需要细粒度理解的任务，实现更快推理。

支持的令牌预算：70、140、280、560和1120。
- 对分类、 captioning或视频理解等任务使用较低预算，此时更快的推理和处理多帧比细粒度细节更重要。
- 对OCR、文档解析或读取小文本等任务使用较高预算。

6. 音频处理

音频处理使用以下提示结构：

音频语音识别（ASR）

text
将以下{语言}语音片段转录为{语言}文本。

遵循以下特定格式说明：  
* 仅输出转录文本，不包含换行。  
* 转录数字时使用数字形式，例如写1.7而非"一点七"，写3而非"三"。

自动语音翻译（AST）

text
将以下{源语言}语音片段转录，然后翻译成{目标语言}。  
格式要求：先输出{源语言}转录文本，然后换行，再输出字符串"{目标语言}: "，最后是{目标语言}翻译文本。

7. 音频和视频长度限制

所有模型支持图像输入，并可将视频作为帧处理；E2B和E4B模型还支持音频输入。音频最大支持长度为30秒。视频在假设每秒处理1帧的情况下最大支持60秒。

模型数据

训练数据集

我们的预训练数据集是大规模、多样化的集合，涵盖广泛领域和模态，包括网页文档、代码、图像、音频，截止日期为2025年1月。关键组成部分：

网页文档：多样化的网页文本确保模型接触广泛的语言风格、主题和词汇。训练数据集包含140多种语言的内容。
代码：接触代码帮助模型学习编程语言的语法和模式，提高代码生成和理解代码相关问题的能力。
数学：数学文本训练帮助模型学习逻辑推理、符号表示和解决数学查询。
图像：广泛的图像使模型能够执行图像分析和视觉数据提取任务。

这些多样化数据源的组合对于训练能处理各种任务和数据格式的强大多模态模型至关重要。

数据预处理

应用于训练数据的关键数据清洗和过滤方法：

CSAM过滤：在数据准备过程的多个阶段应用严格的儿童性虐待材料（CSAM）过滤，确保排除有害和非法内容。
敏感数据过滤：为使Gemma预训练模型安全可靠，使用自动化技术从训练集中过滤某些个人信息和其他敏感数据。
其他方法：根据我们的政策进行基于内容质量和安全性的过滤。

伦理与安全

随着开源模型成为企业基础设施的核心，来源和安全性至关重要。Gemma 4由Google DeepMind开发，经过与专有Gemini模型相同的严格安全评估。

评估方法

Gemma 4模型是与内部安全和负责任AI团队合作开发的。进行了一系列自动化和人工评估以帮助提高模型安全性。这些评估符合Google AI原则以及安全政策，旨在防止生成式AI模型生成有害内容，包括：

与儿童性虐待材料和剥削相关的内容
危险内容（如鼓励自杀或指导可能造成现实伤害的活动）
性露骨内容
仇恨言论（如非人化受保护群体成员）
骚扰（如鼓励对他人的暴力）

评估结果

在所有安全测试领域，我们看到所有类别的内容安全相比之前的Gemma模型都有重大改进。总体而言，Gemma 4模型在提高安全性方面显著优于Gemma 3和3n模型，同时保持较低的不当拒绝率。所有测试均在无安全过滤器的情况下进行，以评估模型能力和行为。无论是文本到文本还是图像到文本，在所有模型尺寸中，模型产生的策略违规极少，且相比之前的Gemma模型表现出显著改进。

使用场景和适用范围

预期用途

多模态模型（能够处理视觉、语言和/或音频）在各行业和领域有广泛应用。以下潜在用途列表并不全面，旨在提供模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。

内容创作与通信
- 文本生成：生成创意文本格式，如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话AI：为客户服务、虚拟助手或交互式应用提供对话界面。
- 文本摘要：生成文本语料库、研究论文或报告的简明摘要。

镜像拉取方式

您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本，请访问标签列表页面。

轩辕镜像加速拉取命令点我查看更多 gemma4 镜像标签

docker model pull docker.xuanyuan.run/ai/gemma4:<标签>

使用方法：

DockerHub 原生拉取命令

docker model pull ai/gemma4:<标签>

轩辕镜像配置手册

按平台快速找到配置文档

Docker

登录仓库拉取

登录认证 · 私有仓库

专属域名拉取

免登录 · 高速拉取

Linux

Docker 镜像配置

Windows / Mac

Docker Desktop 配置

MacOS OrbStack

OrbStack 容器

Docker Compose

Compose 项目配置

NAS

群晖

Synology 配置

飞牛

fnOS 镜像配置

绿联

绿联 NAS

威联通

QNAP 配置

极空间

极空间 NAS

企业仓库

其他仓库

ghcr · Quay · nvcr

Harbor 镜像源

Proxy Repository 对接

Portainer 镜像源

Registries 配置

Nexus 镜像源

Docker Proxy 缓存

开发工具

Dev Containers

VS Code 开发容器

Podman

Podman 配置指南

Singularity / Apptainer

HPC 科学计算容器

Kubernetes

K8s Containerd

Kubernetes · Containerd

K3s

轻量级集群

面板 / 网络

爱快路由

iKuai 镜像加速

宝塔面板

一键配置镜像源

AI

用 AI 使用轩辕镜像

agents.md · AI 对话 · 提示词

一键安装

一键安装 Docker

Linux Docker 一键安装

需要其他帮助？请查看我们的常见问题 Docker 镜像访问常见问题解答或提交工单

镜像拉取常见问题

功能

免费版与专业版区别

功能对比 · 版本选择

支持的镜像仓库

Docker Hub · GCR · GHCR

新手拉取配置

docker search 限制

专属域名 · Hub 搜索

不支持 push

仅支持 pull · 不支持

拉取速度原因

带宽 · 缓存 · 冷热镜像

错误码

402 与流量用尽

402 · 流量包 · 充值

401 认证失败

401 · docker login

manifest unknown

标签错误 · 镜像不存在

410 Gone 排查

410 · Docker 升级

429 限流

免费版 · 请求频率

其他报错

DNS 超时

DNS 解析 · 网络超时

TLS 证书失败

no matching manifest（架构）

账号

失败是否计费

manifest · blob · 计费

申请开发票（企业 / 个人）

企业 · 个人 · 工单

修改登录密码

网站 · 仓库 · 重置

注销账户

工单 · 数据 · 注销

原理

mirrors 不生效

daemon.json · 重启

去掉域名前缀

docker tag · 重命名

指定架构拉取

ARM64 · AMD64 · 多架构

latest 与「最新」

digest · 版本号 · 标签

查看全部问题→

用户好评

来自真实用户的反馈，见证轩辕镜像的优质服务

oldzhang

运维工程师

Linux服务器

"Docker访问体验非常流畅，大镜像也能快速完成下载。"