轩辕镜像 官方专业版
轩辕镜像
专业版
轩辕镜像 官方专业版
轩辕镜像
专业版
首页个人中心搜索镜像
交易
充值流量¥7起我的订单
文档
工具
提交工单页面收录
ghcr.io/luce-org/lucebox-hub

ghcr.io/luce-org/lucebox-hub:sha-946eb38-rocm

ghcr.iolinux/amd64sha-946eb38-rocm大小: 未知更新于 2026年6月16日
让 AI 帮你使用轩辕镜像? · 展开查看说明 · 点击收起说明

如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。

只需在 AI 对话中先发送下面这句话即可:

请先完整阅读并严格遵守以下文档中的全部规则与要求:

https://xuanyuan.cloud/agents.md

在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。

查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。

为速度而生的本地LLM推理服务器。自定义内核、推测式预填充与解码。我们引擎中的每项优化均针对特定模型系列和硬件目标。


推理引擎优化

每项优化均包含独立的设置说明和基准测试备注。

  

  


支持的模型与草稿模型

所有加速比均相对于官方llama.cpp(-fa 1,匹配KV量化)测量。组合加速比 = 几何平均值√(TTFT × 解码)(当两个阶段均进行基准测试时);否则为单阶段加速比。草稿模型发布于https://huggingface.co/Lucebox%E3%80%82

模型加速比
Qwen 3.5-0.8B (Megakernel)~2×
Qwen 3.5-27B + DDTree3.43×
Qwen 3.6-27B + PFlash~5.6×
Qwen 3.6-27B + DDTree4.84×
Laguna-XS.2 33B + PFlash5.4× @128K
Qwen 3.5-27B HIP~2.6×
Gemma-4-26B-A4B1.31×
草稿模型阶段
https://huggingface.co/Lucebox/Qwen3.6-27B-DFlash-GGUF解码
https://huggingface.co/Lucebox/gemma-4-26B-A4B-it-DFlash-GGUF解码
https://huggingface.co/Lucebox/gemma-4-31B-it-DFlash-GGUF解码
https://huggingface.co/Qwen/Qwen3-0.6B预填充

已测试机器(GPU/APU)

参考目标:RTX 3090(Ampere sm_86)——所有标题数据。其他NVIDIA架构由CMake / setup.py自动检测;AMD HIP后端单独提供(Strix Halo部分)。

架构GPU最低CUDA / ROCm版本状态基准测试
Ampere sm_86RTX 3090, A-seriesCUDA 12.0✅ 参考megakernel · dflash
Blackwell sm_120RTX 5090CUDA 12.8✅ 205 tok/s, 4.84×↗
Blackwell sm_121DGX Spark / GB10CUDA 12.9✅ megakernel NVFP4↗
Turing sm_75RTX 2080 TiCUDA 12.0✅ 53 tok/s DFlash↗
Ada sm_89RTX 40xxCUDA 12.0🟡 社区WSL2基准测试↗
—Blackwell sm_110Jetson AGX ThorCUDA 13.0🟡 可构建,未测试—
Volta sm_70 / Pascal sm_61V100, P40CUDA 12.0🟡 降级路径,未测试—
RDNA3.5 gfx1151Ryzen AI MAX+ 395 / Strix HaloROCm 6+✅ 37 tok/s HIP↗
RDNA3 gfx1100Radeon RX 7900 XTXROCm 6+✅ 50 tok/s HIP↗

server/(DFlash)使用CMake 3.18+和--recurse-submodules构建,用于Luce-Org/llama.cpp@luce-dflash——无需PyTorch。optimizations/megakernel/是唯一需要PyTorch 2.0+的组件(CUDAExtension链接到torch C++库)。功耗调优:sudo nvidia-smi -pl 220(3090的最佳点,其他显卡需重新测试)。

服务器标志

核心

标志默认值作用
--draft —DFlash 草稿 GGUF,推测解码必需
--port N8000HTTP 端口
--host H127.0.0.1绑定地址
--max-ctx Nauto-fitKV 缓存大小;过大会减慢预填充(FA 步长覆盖未使用 KV)
--max-tokens Nmodel-card生成上限
--model-name S文件名OpenAI model 字段
--chat-template-file 自动检测覆盖 Jinja 模板

解码(DFlash + DDTree)

标志默认值作用
--ddtree关闭(链式)启用树验证
--ddtree-budget N22树大小。3090 上为 22(默认),5090 上为 40,GB10 上需重新测试
--fa-window N2048滑动 FA 窗口;0 = 全注意力
--draft-residency {auto,persistent,request-scoped}auto草稿权重何时从 VRAM 中驱逐。request-scoped 在每个请求的草稿工作后停放/释放它们(在 GPU 显存紧张时为目标模型释放显存);persistent 在请求间保持驻留;auto 保留当前行为,同时遵循低显存/--lazy-draft 提示。可通过 /props.runtime.draft_residency 查询。
--lazy-draft关闭--draft-residency=request-scoped 的旧别名(延迟加载草稿直到首个请求,使用后释放)

预填充压缩(PFlash)

标志 / 环境变量默认值作用
--prefill-compression {off,auto,always}off何时对提示进行评分+压缩
--prefill-threshold N32000在 auto 模式下,超过此提示令牌数的单轮提示会被压缩。也是多轮请求中旧消息在 FlowKV 对其进行压缩前必须超过的每条消息最小值。若希望 FlowKV 对较短历史生效,可降低此值(如 1024)。
--prefill-keep-ratio F0.05保留的源令牌比例(128K 时为 0.02,32K 时为 0.10)
--prefill-curve T:R [T:R ...]关闭(固定保留比例)分段保留比例曲线,基于 (令牌数, 比例) 断点线性插值,例如 10000:0.5 40000:0.2 100000:0.1(10K 时 2 倍压缩,40K 时 5 倍压缩,100K+ 时 10 倍压缩)。覆盖 --prefill-keep-ratio;会话内 bandit 覆盖仍优先。
--prefill-drafter 启用时必需草稿器权重(Qwen3-0.6B BF16 GGUF)
--prefill-skip-park关闭在请求间保持草稿器驻留(占用更多 VRAM,速度更快)
PFLASH_FREEZE_HOT_WINDOW=N2FlowKV:最近多少条消息保持原样。早于此窗口的所有消息(但在系统提示之后)会被压缩一次并缓存。值越大,保留未压缩的近期上下文越多。
DFLASH_FP_USE_BSA=10通过 BSA 调度稀疏 FA(sm_80+);实现 10.4 倍性能必需
DFLASH_FP_ALPHA=0.850.12块选择阈值;值越高=越严格=选择的 K 块越少
DFLASH_FP_PROFILE=10每阶段计时日志

启用压缩时,请求路径会自动选择以下三种模式之一,不会叠加:首轮发送原始内容(系统提示作为稳定的缓存锚点保留),多轮续轮使用FlowKV(仅旧历史被压缩,近期轮次保持原样,因此 --prefix-cache-slots 的磁盘前缀缓存持续命中),无历史轮次的单个超大提示使用全提示 PFlash。--prefill-compression off 时,请求路径与无压缩的构建版本完全相同。

KV 缓存

标志 / 环境变量默认值作用
--cache-type-k / --cache-type-v 环境驱动每侧量化覆盖:f16,bf16,q4_0,q4_1,q5_0,q5_1,q8_0,tq3_0
DFLASH27B_KV_TQ3=1(默认)预设 TQ3_0 K+V(3.5 bpv,24 GB 显存可容纳 256K)
DFLASH27B_KV_Q4=1关闭Q4_0 K+V(4.5 bpv,旧版,上限约 128K)
--prefix-cache-slots N—实时前缀缓存槽数量
--kv-cache-dir —将前缀缓存持久化到磁盘
--kv-cache-budget N—磁盘缓存大小上限

有限 KV 驻留(KVFlash)

通过固定的 GPU 槽位池分页存储注意力 KV 缓存;冷 64 令牌块存储在主机内存中,位精确且可召回。解码速度不再依赖上下文长度,任何上下文下驻留 KV 均保持池大小。默认关闭;支持所有模型系列。草稿器评分驻留是所有系列的默认设置:服务器在模型旁边找到 Qwen3-0.6B 草稿器(或通过 --prefill-drafter 指定),并延迟加载作为相关性评分器来决定哪些块保持驻留——非 Qwen 目标模型(laguna、gemma4)通过为草稿器重新分词上下文文本来弥合分词器差异。无草稿器时或通过 --kvflash-policy lru 显式选择时,LRU 作为备用方案。各模型具体数值参见 Luce KVFlash →。

标志 / 环境变量默认值作用
--kvflash 关闭驻留池大小。auto 根据 GPU 自动调整:权重和预留显存后剩余显存的一半,按模型的 KV 密度计算,上限为解码速度接***稳最优值的位置(默认 ***,可通过 DFLASH_KVFLASH_MAX_POOL 覆盖)以及 --max-ctx。显式值会四舍五入到 256,限制在 --max-ctx 范围内,下限为受保护的最小值,确保驱逐时总有可回收的块。
--kvflash-policy {drafter,lru}drafter驻留策略。lru 不使用草稿器探测/加载(仅基于最近度分页,无额外 VRAM 占用)。
--kvflash-tau N64重选间隔下限(仅草稿器策略);实际间隔随历史增长以限制重评分开销。
DFLASH_KVFLASH=N关闭--kvflash 的环境变量等效形式。
DFLASH_KVFLASH_TAU=N64--kvflash-tau 的环境变量等效形式。

思考预算

标志默认值作用
--think-max-tokens Nmodel-card… 内的最大令牌数
--default-max-tokens Nmodel-card默认响应上限
--hard-limit-reply-budget N4096硬上限;接近限制时注入 闭合符
--reasoning-effort-{low,medium,high,x-high,max} Nmodel-cardOpenAI 风格的努力级别

多 GPU / IPC

MoE专家卸载(Spark)

对于专家无法放入VRAM的MoE目标(laguna、qwen35/qwen36)。--spark会自调整热/冷专家拆分、有界GPU缓存以及来自实时流量的放置配置文件;通过默认的单图融合路径,解码性能接近全GPU上限。参见 Luce Spark →。

标志/环境变量默认值作用
--sparkoff一键自动调优:启用有界专家缓存,根据VRAM目标调整大小,自动加载并持续保存放置配置文件(.gguf.spark.csv)。
--spark-vram 整张卡Spark可使用的总VRAM;在此限制下调整热层+缓存+KV的大小。
DFLASH_SPARK=1off--spark的环境变量等效形式。
DFLASH_SPARK_VRAM_MB=N—--spark-vram的环境变量等效形式(单位为MB)。
DFLASH_ _EXPERT_CACHE=1off有界GPU专家缓存( = LAGUNA 或 QWEN35MOE);预热后冷缓存未命中趋近于0。
DFLASH_ _CACHE_SLOTS=Nauto每层的缓存槽数。
DFLASH_LAGUNA_NO_SINGLE_GRAPH=1off回退到每层解码,而非默认的单图融合混合模式。

DFlash基准测试 → · DFlash博客 → · PFlash基准测试 → · PFlash博客 → · 每台机器快速入门(DGX Spark、Jetson Thor、HIP)→


运行Megakernel基准测试(Qwen 3.5-0.8B)

独立的Python基准测试;24层融合为一个持久化CUDA调度。与llama.cpp BF16相比,解码速度413 tok/s,预填充21,347 tok/s,220W下1.87 tok/J。

uv sync --extra megakernel
uv run --directory megakernel python final_bench.py
方法预填充 pp520解码 tg128tok/J
Megakernel @220W21,3474131.87
llama.cpp BF16 @350W11,2472670.76
PyTorch HF7,578108n/a

设置 → · 基准测试 → · 博客 →

[!NOTE] Blackwell(RTX 5090、DGX Spark / GB10): 安装程序会自动检测;NVFP4解码路径在GB10上可达约194 tok/s。参见 optimizations/megakernel/README.md#blackwell-sm_120--sm_121a。


教程

针对各项优化和测试工具设置的视频教程。

Luce KVFlash ▶ ***

项目初衷

本地AI应该是默认选择,而非特权。私有数据、无按token计费、无供应商锁定。能够运行高性能模型的硬件已遍布桌面,但能充分发挥其吞吐量的软件却不存在。

目前没有专为本地AI推理构建的软件。大多数机器只是将标准GPU连接到桌面CPU并运行标准运行时,从未针对底层芯片优化内核。在相同的27B模型上,DGX Spark或Mac Studio的实际吞吐量被浪费了四到六倍。通用框架在过去十年中占据主导地位,因为为每款芯片手动优化的成本高于回报:一个框架,在所有设备上表现平平,在任何设备上都不卓越。推测解码、推测预填充、融合megakernel和校准MoE专家卸载可将闲置芯片性能提升3-10倍,但这些技术仅锁定在数据中心GPU的BF16权重上。消费级显卡只能继承剩余的性能。

有关基准测试和设备的详细信息,请访问 lucebo*。**


贡献请求

▮▮▮▮▮▮▮▮▮▮ HIP/CUDA kernel optimizations
▮▮▮▮▮▮▮▮▮▯ Speculative inference optimizations
▮▮▮▮▮▮▮▯▯▯ Support to new GPU/APU consumer cards
▮▮▮▮▮▮▮▯▯▯ Inference engine debugging
▮▮▮▮▮▮▯▯▯▯ Add new performance benchmarks
▮▮▮▮▮▯▯▯▯▯ Improvements for harnesses integration

引用

@software{lucebox_2026,
title = {Fast LLM speculative inference server for specific consumer hardware.},
author = {Lucebox},
url = {https://github.com/Luce-Org/lucebox-hub},
year = {2026}
}

社区

  • *****:*.gg/yHfswqZmJQ
  • 网站:lucebo***
  • 问题:https://github.com/Luce-Org/lucebox-hub/issues
  • 博客:lucebo***/blog

Apache 2.0 · Lucebo***

轩辕镜像配置手册

按平台快速找到配置文档

Docker

登录仓库拉取

登录认证 · 私有仓库

专属域名拉取

免登录 · 高速拉取

Linux

Docker 镜像配置

Windows / Mac

Docker Desktop 配置

MacOS OrbStack

OrbStack 容器

Docker Compose

Compose 项目配置

NAS

群晖

Synology 配置

飞牛

fnOS 镜像配置

绿联

绿联 NAS

威联通

QNAP 配置

极空间

极空间 NAS

企业仓库

其他仓库

ghcr · Quay · nvcr

Harbor 镜像源

Proxy Repository 对接

Portainer 镜像源

Registries 配置

Nexus 镜像源

Docker Proxy 缓存

开发工具

Dev Containers

VS Code 开发容器

Podman

Podman 配置指南

Singularity / Apptainer

HPC 科学计算容器

Kubernetes

K8s Containerd

Kubernetes · Containerd

K3s

轻量级集群

面板 / 网络

爱快路由

iKuai 镜像加速

宝塔面板

一键配置镜像源

AI

用 AI 使用轩辕镜像

agents.md · AI 对话 · 提示词

一键安装

一键安装 Docker

Linux Docker 一键安装

需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单

镜像拉取常见问题

功能

免费版与专业版区别

功能对比 · 版本选择

支持的镜像仓库

Docker Hub · GCR · GHCR

新手拉取配置

登录 · 专属域名 · 配置

docker search 限制

专属域名 · Hub 搜索

不支持 push

仅支持 pull · 不支持

拉取速度原因

带宽 · 缓存 · 冷热镜像

错误码

402 与流量用尽

402 · 流量包 · 充值

401 认证失败

401 · docker login

manifest unknown

标签错误 · 镜像不存在

410 Gone 排查

410 · Docker 升级

429 限流

免费版 · 请求频率

其他报错

DNS 超时

DNS 解析 · 网络超时

TLS 证书失败

no matching manifest(架构)

账号

失败是否计费

manifest · blob · 计费

申请开发票(企业 / 个人)

企业 · 个人 · 工单

修改登录密码

网站 · 仓库 · 重置

注销账户

工单 · 数据 · 注销

原理

mirrors 不生效

daemon.json · 重启

去掉域名前缀

docker tag · 重命名

指定架构拉取

ARM64 · AMD64 · 多架构

latest 与「最新」

digest · 版本号 · 标签

查看全部问题→

用户好评

来自真实用户的反馈,见证轩辕镜像的优质服务

用户头像

oldzhang

运维工程师

Linux服务器

5

"Docker访问体验非常流畅,大镜像也能快速完成下载。"

轩辕镜像
镜像详情
...
ghcr.io/luce-org/lucebox-hub
教程轩辕镜像功能与使用教程
定价查看流量套餐与价格
热门查看热门 Docker 镜像推荐
博客Docker 镜像公告与技术博客
专业版 · 高速稳定拉取镜像
高速镜像下载·在线技术支持·99.95% SLA 保障·付费会员免广告
50GB 仅 ¥7/年
专业版 · 高速稳定拉取镜像
50GB 仅 ¥7/年
高速镜像下载·在线技术支持·99.95% SLA 保障·付费会员免广告
商务合作:点击复制邮箱
用户协议·隐私政策·©2024-2026 源码跳动
用户协议·隐私政策©2024-2026 杭州源码跳动科技有限公司商务合作:点击复制邮箱