
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
**提供的版本
!https://statics.moonshot.cn/kimi-blog/assets/logo-CvjirWOb.svg
Kimi K2 Thinking是最新、功能最强大的开源思考模型版本。从Kimi K2开始,我们将其构建为一个能够逐步推理并动态调用工具的思考代理。它通过显著提升多步骤推理深度,并在200–300次连续调用中保持稳定的工具使用能力,在Humanity's Last Exam (HLE)、BrowseComp等基准测试中树立了新的技术标杆。同时,K2 Thinking是原生***量化模型,拥有256k上下文窗口,实现了推理延迟和GPU内存使用的无损降低。
深度思考与工具编排:端到端训练以将思维链推理与函数调用交织进行,支持自主研究、编码和写作工作流,可持续数百步而不偏离目标。
原生*量化**:在训练后阶段采用量化感知训练(QAT),在低延迟模式下实现无损2倍加速。
稳定的长期任务执行能力:在多达200–300次连续工具调用中保持连贯的目标导向行为,超越了之前在30–50步后性能下降的模型。
| 领域 | 数值 |
|---|---|
| 架构 | 混合专家模型(MoE) |
| 总参数量 | 1T |
| 激活参数量 | 32B |
| 层数(含密集层) | 61 |
| 密集层数 | 1 |
| 注意力隐藏维度 | 7168 |
| MoE隐藏维度(每专家) | 2048 |
| 注意力头数 | 64 |
| 专家数量 | 384 |
| 每token选择专家数 | 8 |
| 共享专家数量 | 1 |
| 词汇量 | 160K |
| 上下文长度 | 256K |
| 注意力机制 | MLA |
| 激活函数 | SwiGLU |
通过Docker模型运行器使用此AI模型:
bashdocker model run kimi-k2
| 基准测试 | 设置 | K2 Thinking | GPT-5(High) | Claude *** 4.5 | K2 0905(Thinking) | DeepSeek-V3.2 | Grok-4 |
|---|---|---|---|---|---|---|---|
| HLE | 无工具 | 23.9 | 26.3 | 19.8* | 7.9 | 19.8 | 25.4 |
| HLE | 有工具 | 44.9 | 41.7* | 32.0* | 21.7 | 20.3* | 41.0 |
| HLE | 复杂任务 | 51.0 | 42.0 | - | - | - | 50.7 |
| AIME25 | 无工具 | 94.5 | 94.6 | 87.0 | 51.0 | 89.3 | 91.7 |
| AIME25 | 使用Python | 99.1 | 99.6 | 100.0 | 75.2 | 58.1* | 98.8 |
| AIME25 | 复杂任务 | 100.0 | 100.0 | - | - | - | 100.0 |
| HMMT25 | 无工具 | 89.4 | 93.3 | 74.6* | 38.8 | 83.6 | 90.0 |
| HMMT25 | 使用Python | 95.1 | 96.7 | 88.8* | 70.4 | 49.5* | 93.9 |
| HMMT25 | 复杂任务 | 97.5 | 100.0 | - | - | - | 96.7 |
| IMO-AnswerBench | 无工具 | 78.6 | 76.0* | 65.9* | 45.8 | 76.0* | 73.1 |
| GPQA | 无工具 | 84.5 | 85.7 | 83.4 | 74.2 | 79.9 | 87.5 |
| 基准测试 | 设置 | K2 Thinking | GPT-5(High) | Claude *** 4.5 | K2 0905(Thinking) | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|
| MMLU-Pro | 无工具 | 84.6 | 87.1 | 87.5 | 81.9 | 85.0 |
| MMLU-Redux | 无工具 | 94.4 | 95.3 | 95.6 | 92.7 | 93.7 |
| 长篇写作 | 无工具 | 73.8 | 71.4 | 79.8 | 62.8 | 72.5 |
| HealthBench | 无工具 | 58.0 | 67.2 | 44.2 | 43.8 | 46.9 |
| 基准测试 | 设置 | K2 Thinking | GPT-5(High) | Claude *** 4.5 | K2 0905(Thinking) | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|
| BrowseComp | 有工具 | 60.2 | 54.9 | 24.1 | 7.4 | 40.1 |
| BrowseComp-ZH | 有工具 | 62.3 | 63.0* | 42.4* | 22.2 | 47.9 |
| Seal-0 | 有工具 | 56.3 | 51.4* | 53.4* | 25.2 | 38.5* |
| FinSearchComp-T3 | 有工具 | 47.4 | 48.5* | 44.0* | 10.4 | 27.0* |
| Frames | 有工具 | 87.0 | 86.0* | 85.0* | 58.1 | 80.2* |
| 基准测试 | 设置 | K2 Thinking | GPT-5(High) | Claude *** 4.5 | K2 0905(Thinking) | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|
| SWE-bench Verified | 有工具 | 71.3 | 74.9 | 77.2 | 69.2 | 67.8 |
| SWE-bench Multilingual | 有工具 | 61.1 | 55.3* | 68.0 | 55.9 | 57.9 |
| Multi-SWE-bench | 有工具 | 41.9 | 39.3* | 44.3 | 33.5 | 30.6 |
| SciCode | 无工具 | 44.8 | 42.9 | 44.7 | 30.7 | 37.7 |
| LiveCodeBenchV6 | 无工具 | 83.1 | 87.0* | 64.0* | 56.1* | 74.1 |
| OJ-Bench (cpp) | 无工具 | 48.7 | 56.2* | 30.4* | 25.5* | 38.2* |
| Terminal-Bench | 使用模拟工具(JSON) | 47.1 | 43.8 | 51.0 | 44.5 | 37.7 |
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务