
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
本镜像基于NVIDIA Jetson Orin AGX(SM 87)构建,集成了SGLang框架,支持在边缘设备上高效部署大语言模型推理服务。镜像内置实验性NCCL支持的PyTorch,可实现多节点并行推理,适用于资源受限环境下的AI模型部署。
通过jetson-containers运行镜像:
bashjetson-containers run IMAGE_NAME
方法一:使用sglang serve命令
bashSGLANG_ENABLE_SPEC_V2=1 SGLANG_DISABLE_CUDNN_CHECK=1 \ sglang serve --host 0.0.0.0 --port 8000 \ --model-path Qwen/Qwen3.5-35B-A3B-GPTQ-Int4 \ --tp-size 1 \ --mem-fraction-static 0.9 \ --context-length 2048 \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder \ --speculative-algo NEXTN \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --quantization moe_wna16 \ --mamba-scheduler-strategy extra_buffer
方法二:使用launch_server模块
bashpython -m sglang.launch_server --host 0.0.0.0 --port 8000 \ --model-path Qwen/Qwen3-0.6B-GPTQ-Int8 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 2048 \ --reasoning-parser qwen3 \ --attention-backend flashinfer \ --quantization gptq
注意:Qwen/Qwen3.5-35B-A3B-FP8模型在推理时可能出现超时问题
bashpython -m sglang.launch_server --host 0.0.0.0 --port 8000 \ --model-path Qwen/Qwen3-0.6B-FP8 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 2048 \ --reasoning-parser qwen3 \ --attention-backend flashinfer \ --quantization fp8
启动服务
bashpython3 -m sglang.launch_server --host 0.0.0.0 --port 8000 \ --model-path Qwen/Qwen3-4B-Instruct-2507 \ --mem-fraction-static 0.5 \ --context-length 8192
发送推理请求
bashcurl --location 'http://localhost:8000/v1/chat/completions' \ --header 'Content-Type: application/json' \ --data '{ "model": "Qwen/Qwen3-4B-Instruct-2507", "messages": [ { "role": "user", "content": "Why is the sky blue?" } ] }'
Built with: ENABLE_DISTRIBUTED_JETSON_NCCL=1 PYTORCH_FORCE_BUILD=on CUDA_VERSION=12.6 PYTHON_VERSION=3.10 LSB_RELEASE=22.04 PYTORCH_VERSION=2.9 jetson-containers build sglang:0.5.4-builder testing SGLang... ✅ Memory cleared Python: 3.12.12 (main, Oct 14 2025, 21:26:46) [Clang 20.1.4 ] CUDA available: True GPU 0: Orin GPU 0 Compute Capability: 8.7 CUDA_HOME: /usr/local/cuda NVCC: Cuda compilation tools, release 12.9, V12.9.86 CUDA Driver Version: 540.4.0 PyTorch: 2.9.0 sglang: 0.5.3.post3 sgl_kernel: 0.3.16.post3 flashinfer_python: 0.4.1 triton: 3.4.0 transformers: 4.57.1 torchao: 0.9.0 numpy: 2.3.4 aiohttp: 3.13.1 fastapi: 0.119.1 hf_transfer: 0.1.9 huggingface_hub: 0.35.3 interegular: 0.3.3 modelscope: 1.31.0 orjson: 3.11.3 outlines: 1.2.7 packaging: 25.0 psutil: 7.1.1 pydantic: 2.12.3 python-multipart: 0.0.20 pyzmq: 27.1.0 uvicorn: 0.38.0 uvloop: 0.22.1 vllm: Module Not Found xgrammar: 0.1.25 openai: 2.6.0 tiktoken: 0.12.0 anthropic: 0.71.0 litellm: Module Not Found decord: Module Not Found ulimit soft: 1048576 SGLang OK
Built with: ENABLE_DISTRIBUTED_JETSON_NCCL=1 PYTORCH_FORCE_BUILD=on CUDA_VERSION=12.9 PYTHON_VERSION=3.12 LSB_RELEASE=24.04 PYTORCH_VERSION=2.9 jetson-containers build sglang:0.5.4-builder testing SGLang... ✅ Memory cleared Python: 3.12.12 (main, Oct 14 2025, 21:26:46) [Clang 20.1.4 ] CUDA available: True GPU 0: Orin GPU 0 Compute Capability: 8.7 CUDA_HOME: /usr/local/cuda NVCC: Cuda compilation tools, release 12.9, V12.9.86 CUDA Driver Version: 540.4.0 PyTorch: 2.9.0 sglang: 0.5.4 sgl_kernel: 0.3.16.post3 flashinfer_python: 0.4.1 triton: 3.4.0 transformers: 4.57.1 torchao: 0.9.0 numpy: 2.3.4 aiohttp: 3.13.1 fastapi: 0.120.0 hf_transfer: 0.1.9 huggingface_hub: 0.36.0 interegular: 0.3.3 modelscope: 1.31.0 orjson: 3.11.4 outlines: 1.2.7 packaging: 25.0 psutil: 7.1.1 pydantic: 2.12.3 python-multipart: 0.0.20 pyzmq: 27.1.0 uvicorn: 0.38.0 uvloop: 0.22.1 vllm: Module Not Found xgrammar: 0.1.25 openai: 2.6.1 tiktoken: 0.12.0 anthropic: 0.71.0 litellm: 1.79.0 decord2: 2.0.0 ulimit soft: 1048576 SGLang OK
SGLang Jetson平台官方文档:[***]
多节点推理说明:https://github.com/sgl-project/sglang/issues/8164
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务
以下是 mitakad/sglang 相关的常用 Docker 镜像,适用于 不同场景 等不同场景: