轩辕镜像 官方专业版
轩辕镜像
专业版
轩辕镜像 官方专业版
轩辕镜像
专业版
首页个人中心搜索镜像
交易
充值流量¥7起我的订单
文档
工具
提交工单页面收录
ghcr.io/luce-org/lucebox-hub

ghcr.io/luce-org/lucebox-hub:cuda12

ghcr.iolinux/amd64cuda12大小: 6.22 GB更新于 2026年6月21日
让 AI 帮你使用轩辕镜像? · 展开查看说明 · 点击收起说明

如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。

只需在 AI 对话中先发送下面这句话即可:

请先完整阅读并严格遵守以下文档中的全部规则与要求:

https://xuanyuan.cloud/agents.md

在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。

查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。

为速度构建的本地LLM推理服务器。自定义内核、推测性预填充与解码。我们引擎中的每项优化均针对特定模型系列和硬件目标。


推理引擎优化

每项优化均包含独立的设置说明和基准测试说明。

  

  


支持的模型与草稿模型

所有加速比均相对于官方llama.cpp(-fa 1,匹配KV量化)测量。组合加速比=√(TTFT × 解码)的几何平均值(当两个阶段均进行基准测试时);否则为单阶段加速比。草稿模型发布于https://huggingface.co/Lucebox%E3%80%82

模型加速比
Qwen 3.5-0.8B (Megakernel)~2×
Qwen 3.5-27B + DDTree3.43×
Qwen 3.6-27B + PFlash~5.6×
Qwen 3.6-27B + DDTree4.84×
Laguna-XS.2 33B + PFlash5.4× @128K
Qwen 3.5-27B HIP~2.6×
Gemma-4-26B-A4B1.31×
草稿模型阶段
https://huggingface.co/Lucebox/Qwen3.6-27B-DFlash-GGUF解码
https://huggingface.co/Lucebox/gemma-4-26B-A4B-it-DFlash-GGUF解码
https://huggingface.co/Lucebox/gemma-4-31B-it-DFlash-GGUF解码
https://huggingface.co/Qwen/Qwen3-0.6B预填充

已测试机器(GPU/APU)

参考目标:RTX 3090(Ampere sm_86)——所有标题数据。其他NVIDIA架构由CMake / setup.py自动检测;AMD HIP后端单独提供(Strix Halo部分)。

架构GPU最低CUDA / ROCm版本状态基准测试
Ampere sm_86RTX 3090, A-seriesCUDA 12.0✅ referencemegakernel · dflash
Blackwell sm_120RTX 5090CUDA 12.8✅ 205 tok/s, 4.84×↗
Blackwell sm_121DGX Spark / GB10CUDA 12.9✅ megakernel NVFP4↗
Turing sm_75RTX 2080 TiCUDA 12.0✅ 53 tok/s DFlash↗
Ada sm_89RTX 40xxCUDA 12.0🟡 community WSL2 bench↗
—Blackwell sm_110Jetson AGX ThorCUDA 13.0🟡 builds, unbenched—
Volta sm_70 / Pascal sm_61V100, P40CUDA 12.0🟡 fallback paths, unbenched—
RDNA3.5 gfx1151Ryzen AI MAX+ 395 / Strix HaloROCm 6+✅ 37 tok/s HIP↗
RDNA3 gfx1100Radeon RX 7900 XTXROCm 6+✅ 50 tok/s HIP↗

server/(DFlash)使用CMake 3.18+和--recurse-submodules构建,用于Luce-Org/llama.cpp@luce-dflash——无需PyTorch。optimizations/megakernel/是唯一需要PyTorch 2.0+的组件(CUDAExtension链接到torch C++库)。电源调优:sudo nvidia-smi -pl 220(3090的最佳点,其他显卡需重新测试)。

Server flags

解码(DFlash + DDTree)

标志默认值作用
--ddtreeoff (chain)启用树验证
--ddtree-budget N22树大小。3090上为22(默认),5090上为40,GB10上需重新测试
--fa-window N0 / 2048(全注意力)滑动FA窗口。保持为0:有限窗口会破坏工具调用(全注意力层会丢失系统提示/工具)。
--draft-residency {auto,persistent,request-scoped}auto草稿权重何时从VRAM中逐出。request-scoped会在每个请求的草稿工作完成后停放/释放它们(在GPU内存紧张时为目标模型释放VRAM);persistent会在请求间保持它们驻留;auto会保留当前行为,同时遵循低VRAM/--lazy-draft提示。可通过/props.runtime.draft_residency查询。
--lazy-draftoff--draft-residency=request-scoped的旧别名(延迟草稿加载直到第一个请求,之后释放)
标志默认值作用
--think-max-tokens Nmodel-card…内的最大令牌数
--default-max-tokens Nmodel-card默认响应上限
--hard-limit-reply-budget N4096硬性上限;接近限制时注入 闭合符
--reasoning-effort-{low,medium,high,x-high,max} Nmodel-cardOpenAI风格的推理力度层级

多GPU / IPC

标志 / 环境变量默认值作用
--target-device cuda:0目标后端(例如 cuda:0、hip:0)
--draft-device 与目标相同草稿后端;混合后端需使用 --draft-ipc-bin
--target-gpu N0目标GPU索引
--draft-gpu N与目标相同草稿GPU索引;将草稿卸载到第二个GPU
--target-devices / --target-layer-split单GPU在多个GPU间拆分目标层
--draft-ipc-bin —进程外草稿二进制文件(混合CUDA/HIP)
--peer-access关闭启用目标GPU间的P2P访问
--chunk N后端默认值预填充微批大小
--no-corsCORS开启禁用CORS头
DFLASH_TARGET_GPU=N0--target-gpu的环境变量等效项
DFLASH_DRAFT_GPU=N与目标相同--draft-gpu的环境变量等效项

MoE专家卸载(Spark)

适用于专家无法放入VRAM的MoE目标模型(laguna、qwen35/qwen36)。--spark会自调优热/冷专家拆分、有界GPU缓存以及基于实时流量的放置配置文件;通过默认的单图融合路径,解码性能接近全GPU水平。参见 Luce Spark →。

标志 / 环境变量默认值作用
--spark关闭单标志自动调优:启用有界专家缓存,根据VRAM目标调整大小,自动加载并持续保存放置配置文件(.gguf.spark.csv)。
--spark-vram 整张卡Spark可使用的总VRAM;在该上限下调整热层+缓存+KV的大小。
DFLASH_SPARK=1关闭--spark的环境变量等效项。
DFLASH_SPARK_VRAM_MB=N—--spark-vram的环境变量等效项(单位为MB)。
DFLASH_<MODEL>_EXPERT_CACHE=1关闭有界GPU专家缓存(<MODEL> = LAGUNA 或 QWEN35MOE);预热后冷缺失率趋近于0。
DFLASH_<MODEL>_CACHE_SLOTS=N自动每层的缓存槽数。
DFLASH_LAGUNA_NO_SINGLE_GRAPH=1关闭回退到每层解码,而非默认的单图融合混合模式。

DFlash 基准测试 → · DFlash 博客 → · PFlash 基准测试 → · PFlash 博客 → · 每台机器快速启动(DGX Spark、Jetson Thor、HIP)→


运行 Megakernel 基准测试(Qwen 3.5-0.8B)

独立的Python基准测试;24层融合为一个持久化CUDA调度。413 tok/s 解码速度、21,347 预填充速度、1.87 tok/J @220W(对比llama.cpp BF16)。

uv sync --extra megakernel
uv run --directory megakernel python final_bench.py
方法预填充 pp520解码 tg128tok/J
Megakernel @220W21,3474131.87
llama.cpp BF16 @350W11,2472670.76
PyTorch HF7,578108n/a

设置 → · 基准测试 → · 博客 →

Blackwell(RTX 5090、DGX Spark / GB10): 安装时自动检测;NVFP4解码路径在GB10上达到约194 tok/s。参见 optimizations/megakernel/README.md#blackwell-sm_120--sm_121a。


教程

每个优化和测试工具设置的视频教程。

Luce KVFlash ▶ ***

为何存在

本地AI应该是默认选择,而非特权。私有数据、无按令牌计费、无供应商锁定。运行高性能模型的硬件已遍布桌面,而从中获取实际吞吐量的软件却尚未普及。

目前没有为本地AI推理构建的专用软件。大多数机器将标准GPU连接到桌面CPU并运行标准运行时,从未针对底层芯片优化内核。在相同的27B模型上,DGX Spark或Mac Studio的实际吞吐量被浪费了四到六倍。通用框架在过去十年占据主导地位,因为为每种芯片手动调优的成本高于回报:一个框架能在所有设备上表现尚可,但在任何设备上都不卓越。推测性解码、推测性预填充、融合巨核以及校准的MoE专家卸载可将闲置芯片性能提升3-10倍,但这些技术仅锁定在数据中心GPU的BF16权重上,消费级显卡只能继承残羹冷炙。

查看基准测试和相关机器请访问 lucebo*。**


贡献请求

▮▮▮▮▮▮▮▮▮▮ HIP/CUDA 内核优化
▮▮▮▮▮▮▮▮▮▯ 推测性推理优化
▮▮▮▮▮▮▮▯▯▯ 新增消费级GPU/APU支持
▮▮▮▮▮▮▮▯▯▯ 推理引擎调试
▮▮▮▮▮▮▯▯▯▯ 添加新性能基准测试
▮▮▮▮▮▯▯▯▯▯ 测试工具集成改进

引用

@software{lucebox_2026,
title = {Fast LLM speculative inference server for specific consumer hardware.},
author = {Lucebox},
url = {https://github.com/Luce-Org/lucebox-hub},
year = {2026}
}

社区

  • *****:*.gg/yHfswqZmJQ
  • 网站:lucebo***
  • 问题反馈:https://github.com/Luce-Org/lucebox-hub/issues
  • 博客:lucebo***/blog

Apache 2.0 · Lucebo***

轩辕镜像配置手册

按平台快速找到配置文档

Docker

登录仓库拉取

登录认证 · 私有仓库

专属域名拉取

免登录 · 高速拉取

Linux

Docker 镜像配置

Windows / Mac

Docker Desktop 配置

MacOS OrbStack

OrbStack 容器

Docker Compose

Compose 项目配置

NAS

群晖

Synology 配置

飞牛

fnOS 镜像配置

绿联

绿联 NAS

威联通

QNAP 配置

极空间

极空间 NAS

企业仓库

其他仓库

ghcr · Quay · nvcr

Harbor 镜像源

Proxy Repository 对接

Portainer 镜像源

Registries 配置

Nexus 镜像源

Docker Proxy 缓存

开发工具

Dev Containers

VS Code 开发容器

Podman

Podman 配置指南

Singularity / Apptainer

HPC 科学计算容器

Kubernetes

K8s Containerd

Kubernetes · Containerd

K3s

轻量级集群

面板 / 网络

爱快路由

iKuai 镜像加速

宝塔面板

一键配置镜像源

AI

用 AI 使用轩辕镜像

agents.md · AI 对话 · 提示词

一键安装

一键安装 Docker

Linux Docker 一键安装

需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单

镜像拉取常见问题

功能

免费版与专业版区别

功能对比 · 版本选择

支持的镜像仓库

Docker Hub · GCR · GHCR

新手拉取配置

登录 · 专属域名 · 配置

docker search 限制

专属域名 · Hub 搜索

不支持 push

仅支持 pull · 不支持

拉取速度原因

带宽 · 缓存 · 冷热镜像

错误码

402 与流量用尽

402 · 流量包 · 充值

401 认证失败

401 · docker login

manifest unknown

标签错误 · 镜像不存在

410 Gone 排查

410 · Docker 升级

429 限流

免费版 · 请求频率

其他报错

DNS 超时

DNS 解析 · 网络超时

TLS 证书失败

no matching manifest(架构)

账号

失败是否计费

manifest · blob · 计费

申请开发票(企业 / 个人)

企业 · 个人 · 工单

修改登录密码

网站 · 仓库 · 重置

注销账户

工单 · 数据 · 注销

原理

mirrors 不生效

daemon.json · 重启

去掉域名前缀

docker tag · 重命名

指定架构拉取

ARM64 · AMD64 · 多架构

latest 与「最新」

digest · 版本号 · 标签

查看全部问题→

用户好评

来自真实用户的反馈,见证轩辕镜像的优质服务

用户头像

oldzhang

运维工程师

Linux服务器

5

"Docker访问体验非常流畅,大镜像也能快速完成下载。"

轩辕镜像
镜像详情
...
ghcr.io/luce-org/lucebox-hub
教程轩辕镜像功能与使用教程
定价查看流量套餐与价格
热门查看热门 Docker 镜像推荐
博客Docker 镜像公告与技术博客
专业版 · 高速稳定拉取镜像
高速镜像下载·在线技术支持·99.95% SLA 保障·付费会员免广告
50GB 仅 ¥7/年
专业版 · 高速稳定拉取镜像
50GB 仅 ¥7/年
高速镜像下载·在线技术支持·99.95% SLA 保障·付费会员免广告
商务合作:点击复制邮箱
用户协议·隐私政策·©2024-2026 源码跳动
用户协议·隐私政策©2024-2026 杭州源码跳动科技有限公司商务合作:点击复制邮箱