
Gemma是Google DeepMind构建的开源模型系列。Gemma 4模型为多模态模型,支持文本和图像输入(E2B/E4B小模型额外支持音频)并生成文本输出,提供预训练和指令调优两种开源权重变体。该系列模型具备高达256K tokens的上下文窗口,支持140多种语言的多语言处理能力,采用密集型(Dense)和混合专家(MoE)架构,适用于文本生成、编码开发、逻辑推理等任务。其多样化尺寸(E2B、E4B、26B A4B、31B)可部署于高端手机、笔记本电脑及服务器等不同环境,推动先进AI技术的普及应用。
Gemma 4在能力与架构上实现关键突破:
system角色的原生支持,实现更结构化、可控的对话流程Gemma 4模型采用混合注意力机制(局部滑动窗口注意力与全局注意力交错,确保最后一层为全局注意力),结合统一键值设计和比例RoPE(p-RoPE)优化长上下文内存占用,在保持轻量级模型处理速度和低内存特性的同时,保障复杂长上下文任务所需的深度感知能力。
| 属性 | E2B | E4B | 31B Dense |
|---|---|---|---|
| 总参数 | 2.3B有效(含嵌入5.1B) | 4.5B有效(含嵌入8B) | 30.7B |
| 层数 | 35 | 42 | 60 |
| 滑动窗口 | 512 tokens | 512 tokens | 1024 tokens |
| 上下文长度 | 128K tokens | 128K tokens | 256K tokens |
| 词汇量 | 262K | 262K | 262K |
| 支持模态 | 文本、图像、音频 | 文本、图像、音频 | 文本、图像 |
| 视觉编码器参数 | ~150M | ~150M | ~550M |
| 音频编码器参数 | ~300M | ~300M | 无 |
说明:E2B/E4B中的"E"代表"有效参数",采用每层嵌入(PLE)技术,为每个解码器层提供独立token嵌入,在不增加模型层数的前提下提升参数效率,适用于设备端部署。
| 属性 | 26B A4B MoE |
|---|---|
| 总参数 | 25.2B |
| 激活参数 | 3.8B |
| 层数 | 30 |
| 滑动窗口 | 1024 tokens |
| 上下文长度 | 256K tokens |
| 词汇量 | 262K |
| 专家配置 | 8个激活专家/128个总专家+1个共享专家 |
| 支持模态 | 文本、图像 |
| 视觉编码器参数 | ~550M |
说明:26B A4B中的"A"代表"激活参数",推理时仅激活3.8B参数子集,运行速度接近4B参数模型,兼顾性能与效率,适合快速推理场景。
以下为指令调优模型在各类任务中的评估结果:
| 任务 | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B(无思维) |
|---|---|---|---|---|---|
| MMLU Pro(多任务语言理解) | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| LiveCodeBench v6(代码生成) | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| GPQA Diamond(知识问答) | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| MMMU Pro(多模态理解) | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| MRCR v2 8 needle 128k(长上下文) | 66.4% | 44.1% | 25.4% | 19.1% | 13.5% |
Gemma 4模型具备多模态处理能力,可应对以下关键任务:
bashdocker pull google/gemma4:latest
bash# 运行E4B模型(GPU加速) docker run -it --gpus all -p 8080:8080 google/gemma4:latest \ --model-size e4b \ --context-length 128000 \ --temperature 1.0 \ --top-p 0.95 \ --top-k 64
yamlversion: '3.8' services: gemma4: image: google/gemma4:latest container_name: gemma4-service ports: - "8080:8080" deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] environment: - MODEL_SIZE=e4b - CONTEXT_LENGTH=128000 - TEMPERATURE=1.0 - TOP_P=0.95 - TOP_K=64 volumes: - ./data:/app/data # 挂载数据持久化目录
推荐标准化采样参数:
temperature=1.0(控制随机性)top_p=0.95(核采样)top_k=64(Top-K采样)<|think|>令牌<|channel>thoughtn[内部推理内容]<channel|><|think|>令牌,非E2B/E4B模型将生成空思维块:<|channel>thoughtn<channel|>[最终答案]注意:Transformers、llama.cpp等库已集成聊天模板处理,无需手动管理令牌
历史对话记录中仅保留最终响应,不得包含模型的内部推理内容。
多模态提示中,建议将图像/音频内容置于文本内容之前,以获得最佳处理效果。
通过视觉令牌预算控制图像细节与推理速度,支持值:70/140/280/560/1120
语音识别(ASR):
textTranscribe the following speech segment in {LANGUAGE} into {LANGUAGE} text. Follow these specific instructions for formatting the answer: * Only output the transcription, with no newlines. * When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
语音翻译(AST):
textTranscribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}. When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
Gemma 4经过与Google Gemini模型同等严格的安全评估,符合Google AI原则,针对以下风险进行控制:
评估结果显示,Gemma 4在内容安全各维度显著优于前代模型,同时保持低不合理拒绝率,所有测试均在无安全过滤器条件下进行,验证了模型原生安全能力。
包含网络文档(140+语言)、代码、数学文本、图像、音频等多模态数据,截止日期2025年1月,确保模型接触广泛领域知识。
Gemma 4系列模型在提供高性能多模态能力的同时,致力于推动负责任的AI开发与应用,为开发者和研究人员提供安全可靠的开源模型基础。





探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务