热门搜索:

ghcr.io/huggingface/text-generation-inference

ghcr.iolinux/amd64sha-dfb3fbe大小: 未知更新于 2026年5月23日

[!IMPORTANT] text-generation-inference 现已进入维护模式。今后，我们将仅接受小 bug 修复、文档改进和轻量级维护任务的拉取请求。

TGI 已发起运动，推动优化推理引擎依赖 transformers 模型架构。这种方法现已被下游推理引擎采用，我们对此做出了贡献并建议今后使用：https://github.com/vllm-project/vllm%E3%80%81https://github.com/sgl-project/sglang%EF%BC%8C%E4%BB%A5%E5%8F%8A%E5%85%B7%E6%9C%89%E4%BA%92%E5%85%BC%E5%AE%B9%E6%80%A7%E7%9A%84%E6%9C%AC%E5%9C%B0%E5%BC%95%E6%93%8E%EF%BC%88%E5%A6%82 llama.cpp 或 MLX）。

文本生成推理

一个用于文本生成推理的 Rust、Python 和 gRPC 服务器。已在 Hugging Face 的生产环境中使用，为 Hugging Chat、推理 API 和推理端点提供支持。

简单的启动器，可服务大多数流行的 LLM
生产就绪（支持 Open Telemetry 分布式追踪、Prometheus 指标）
张量并行（Tensor Parallelism），可在多 GPU 上实现更快推理
使用服务器发送事件（SSE）的令牌流
对传入请求进行连续批处理，以提高总吞吐量
消息 API，与 Open AI 聊天补全 API 兼容
针对最流行架构优化的 transformers 推理代码，使用 https://github.com/HazyResearch/flash-attention 和 https://github.com/vllm-project/vllm
支持以下量化方式：
- https://github.com/TimDettmers/bitsandbytes
- GPT-Q
- https://github.com/NetEase-FuXi/EETQ
- https://github.com/casper-hansen/AutoAWQ
- https://github.com/IST-DASLab/marlin
- fp8
https://github.com/huggingface/safetensors 权重加载
使用大型语言模型水印的水印功能
Logits 调整器（温度缩放、top-p、top-k、重复惩罚，更多详情参见 transformers.LogitsProcessor）
停止序列
对数概率
推测解码，延迟降低约 2 倍
Guidance/JSON：指定输出格式以加速推理，并确保输出符合特定规范。
自定义提示生成：通过提供自定义提示来引导模型输出，轻松生成文本
微调支持：利用针对特定任务的微调模型，以实现更高的准确性和性能

硬件支持

https://github.com/huggingface/text-generation-inference/pkgs/container/text-generation-inference
https://github.com/huggingface/text-generation-inference/pkgs/container/text-generation-inference%EF%BC%88-rocm%EF%BC%89
https://github.com/huggingface/optimum-neuron/tree/main/text-generation-inference
https://github.com/huggingface/text-generation-inference/pull/1475
https://github.com/huggingface/tgi-gaudi
Google TPU

快速开始

Docker

有关详细的入门指南，请参见快速入门。最简单的入门方式是使用官方 Docker 容器：

model=HuggingFaceH4/zephyr-7b-beta
# 与 Docker 容器共享卷以避免每次运行都下载权重
volume=$PWD/data

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
ghcr.io/huggingface/text-generation-inference:3.3.5 --model-id $model

然后您可以发送请求，例如：

curl 127.0.0.1:8080/generate_stream \
-X POST \
-d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":20}}' \
-H 'Content-Type: application/json'

您还可以使用 TGI 的消息 API 来获取与 Open AI 聊天补全 API 兼容的响应。

curl localhost:8080/v1/chat/completions \
-X POST \
-d '{
"model": "tgi",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "What is deep learning?"
}
],
"stream": true,
"max_tokens": 20
}' \
-H 'Content-Type: application/json'

[!NOTE] 要使用 NVIDIA GPU，您需要安装 NVIDIA Container Toolkit。我们还建议使用 CUDA 版本 12.2 或更高的 NVIDIA 驱动程序。在没有 GPU 或 CUDA 支持的机器上运行 Docker 容器时，只需移除 --gpus all 标志并添加 --disable-custom-kernels 即可。请注意，CPU 并非本项目的目标平台，因此性能可能欠佳。

[!NOTE] TGI 支持 AMD Instinct MI210 和 MI250 GPU。详情可参见支持的硬件文档。要使用 AMD GPU，请使用 docker run --device /dev/kfd --device /dev/dri --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:3.3.5-rocm --model-id $model 替换上述命令。

要查看服务模型的所有选项（在 https://github.com/huggingface/text-generation-inference/blob/main/launcher/src/main.rs 或命令行中）：

text-generation-launcher --help

API 文档

您可以通过 /docs 路由查阅 text-generation-inference REST API 的 OpenAPI 文档。Swagger UI 也可在以下地址获取：https://huggingface.github.io/text-generation-inference%E3%80%82

使用私有或 gated 模型

你可以选择使用 HF_TOKEN 环境变量来配置 text-generation-inference 所使用的令牌。这使你能够访问受保护的资源。

例如，如果你想提供 gated 的 Llama V2 模型变体：

访问 [***]
复制你的 CLI READ 令牌
导出 HF_TOKEN=

或使用 Docker：

model=meta-llama/Meta-Llama-3.1-8B-Instruct
volume=$PWD/data # 与 Docker 容器共享卷以避免每次运行都下载权重
token=

docker run --gpus all --shm-size 1g -e HF_TOKEN=$token -p 8080:80 -v $volume:/data \
ghcr.io/huggingface/text-generation-inference:3.3.5 --model-id $model

关于共享内存（shm）的说明

NCCL 是 PyTorch 用于分布式训练/推理的通信框架。text-generation-inference 利用 NCCL 实现张量并行（Tensor Parallelism），以显著加速大型语言模型的推理速度。

为了在 NCCL 组的不同设备之间共享数据，如果无法通过 NVLink 或 PCI 进行对等通信，NCCL 可能会回退到使用主机内存。

为允许容器使用 1G 共享内存并支持 SHM 共享，我们在上述命令中添加了 --shm-size 1g。

如果你在 Kubernetes 中运行 text-generation-inference，也可以通过创建以下卷为容器添加共享内存：

- name: shm
  emptyDir:
    medium: Memory
    sizeLimit: 1Gi

并将其挂载到 /dev/shm。

最后，你也可以通过设置 NCCL_SHM_DISABLE=1 环境变量来禁用 SHM 共享。但请注意，这会影响性能。

分布式追踪

text-generation-inference 通过 OpenTelemetry 实现了分布式追踪功能。你可以通过 --otlp-endpoint 参数设置 OTLP 收集器的地址来使用此功能。默认服务名称可以通过 --otlp-service-name 参数覆盖。

架构

Adyen 关于 TGI 内部工作原理的详细博客文章：LLM inference at scale with TGI (Martin Iglesias Goyanes - Adyen, 2024)

本地安装

你也可以选择在本地安装 text-generation-inference。

首先克隆仓库并进入目录：

git clone https://github.com/huggingface/text-generation-inference
cd text-generation-inference

然后安装 Rust 并创建至少 Python 3.9 的 Python 虚拟环境，例如使用 conda 或 python venv：

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

# 使用 conda
conda create -n text-generation-inference python=3.11
conda activate text-generation-inference

# 使用 python venv
python3 -m venv .venv
source .venv/bin/activate

你可能还需要安装 Protoc。

在 Linux 上：

PROTOC_ZIP=protoc-21.12-linux-x86_64.zip
curl -OL https://github.com/protocolbuffers/protobuf/releases/download/v21.12/$PROTOC_ZIP
sudo unzip -o $PROTOC_ZIP -d /usr/local bin/protoc
sudo unzip -o $PROTOC_ZIP -d /usr/local 'include/*'
rm -f $PROTOC_ZIP

在 macOS 上，使用 Homebrew：

brew install protobuf

然后运行：

BUILD_EXTENSIONS=True make install # 安装仓库及包含 CUDA 内核的 HF/transformer 分支
text-generation-launcher --model-id mistralai/Mistral-7B-Instruct-v0.2

[!NOTE] 在某些机器上，你可能还需要 OpenSSL 库和 gcc。在 Linux 机器上，运行：

> sudo apt-get install libssl-dev gcc -y
>

本地安装（Nix）

另一种选择是使用 Nix 在本地安装 text-generation-inference。目前，我们仅支持在带有 CUDA GPU 的 x86_64 Linux 上使用 Nix。使用 Nix 时，所有依赖项都可以从二进制缓存中获取，无需在本地构建。

首先按照说明安装 Cachix 并启用 Hugging Face 缓存。设置缓存很重要，否则 Nix 会在本地构建许多依赖项，这可能需要数小时。

之后，你可以使用 nix run 运行 TGI：

cd text-generation-inference
nix run --extra-experimental-features nix-command --extra-experimental-features flakes . -- --model-id meta-llama/Llama-3.1-8B-Instruct

[!NOTE] 当你在非 NixOS 系统上使用 Nix 时，必须创建一些符号链接，使 CUDA 驱动库对 Nix 包可见。

对于 TGI 开发，你可以使用 impure 开发 shell：

nix develop .#impure

# 仅在首次启动开发 shell 或更新 protobuf 后需要执行
(
cd server
mkdir text_generation_server/pb || true
python -m grpc_tools.protoc -I../proto/v3 --python_out=text_generation_server/pb \
--grpc_python_out=text_generation_server/pb --mypy_out=text_generation_server/pb ../proto/v3/generate.proto
find text_generation_server/pb/ -type f -name "*.py" -print0 -exec sed -i -e 's/^\(import.*pb2\)/from . \1/g' {} \;
touch text_generation_server/pb/__init__.py
)

此开发 shell 中包含所有开发依赖项（cargo、Python、Torch 等）。

优化架构

TGI 开箱即可支持所有现代模型的优化版本。这些模型可在此列表中找到。

其他架构通过以下方式提供尽力支持：

AutoModelForCausalLM.from_pretrained( , device_map="auto")

或

AutoModelForSeq2SeqLM.from_pretrained( , device_map="auto")

本地运行

运行

text-generation-launcher --model-id mistralai/Mistral-7B-Instruct-v0.2

量化

你也可以运行预量化权重（AWQ、GPTQ、Marlin）或使用 bitsandbytes、EETQ、fp8 进行动态量化，以减少 VRAM 需求：

text-generation-launcher --model-id mistralai/Mistral-7B-Instruct-v0.2 --quantize

4bit 量化可通过 bitsandbytes 的 NF4 和 FP4 数据类型实现。可通过向 text-generation-launcher 提供 --quantize bitsandbytes-nf4 或 --quantize bitsandbytes-fp4 命令行参数来启用。

有关量化的更多信息，请参阅量化文档。

开发

make server-dev
make router-dev

测试

# python 测试
make python-server-tests
make python-client-tests
# 或同时运行服务端和客户端测试
make python-tests
# rust cargo 测试
make rust-tests
# 集成测试
make integration-tests

轩辕镜像配置手册

探索更多轩辕镜像的使用方法，找到最适合您系统的配置方式

Docker 配置

登录仓库拉取

通过 Docker 登录认证访问私有仓库

专属域名拉取

无需登录使用专属域名

K8s Containerd

Kubernetes 集群配置 Containerd

K3s

K3s 轻量级 Kubernetes 镜像加速

Dev Containers

VS Code Dev Containers 配置

Podman

Podman 容器引擎配置

Singularity/Apptainer

HPC 科学计算容器配置

其他仓库配置

ghcr、Quay、nvcr 等镜像仓库

Harbor 镜像源配置

Harbor Proxy Repository 对接专属域名

Portainer 镜像源配置

Portainer Registries 加速拉取

Nexus 镜像源配置

Nexus3 Docker Proxy 内网缓存

系统配置

Linux

在 Linux 系统配置镜像服务

Windows/Mac

在 Docker Desktop 配置镜像

MacOS OrbStack

MacOS OrbStack 容器配置

Docker Compose

Docker Compose 项目配置

NAS 设备

群晖

Synology 群晖 NAS 配置

飞牛

飞牛 fnOS 系统配置镜像

绿联

绿联 NAS 系统配置镜像

威联通

QNAP 威联通 NAS 配置

极空间

极空间 NAS 系统配置服务

网络设备

爱快路由

爱快 iKuai 路由系统配置

宝塔面板

在宝塔面板一键配置镜像

需要其他帮助？请查看我们的常见问题Docker 镜像访问常见问题解答或提交工单

镜像拉取常见问题

使用与功能问题

配置了专属域名后，docker search 为什么会报错？

docker search 限制

Docker Hub 上有的镜像，为什么在轩辕镜像网站搜不到？

站内搜不到镜像

机器不能直连外网时，怎么用 docker save / load 迁镜像？

离线 save/load

docker pull 拉插件报错（plugin v1+json）怎么办？

插件要用 plugin install

WSL 里 Docker 拉镜像特别慢，怎么排查和优化？

WSL 拉取慢

轩辕镜像安全吗？如何用 digest 校验镜像没被篡改？

安全与 digest

第一次用轩辕镜像拉 Docker 镜像，要怎么登录和配置？

新手拉取配置

轩辕镜像合规吗？轩辕镜像的合规是怎么做的？

镜像合规机制

轩辕镜像支持 docker push 上传本地镜像吗？

不支持 push

错误码与失败问题

docker pull 提示 manifest unknown 怎么办？

manifest unknown

docker pull 提示 no matching manifest 怎么办？

no matching manifest（架构）

镜像已拉取完成，却提示 invalid tar header 或 failed to register layer 怎么办？

invalid tar header（解压）

Docker pull 时 HTTPS / TLS 证书验证失败怎么办？

TLS 证书失败

Docker pull 时 DNS 解析超时或连不上仓库怎么办？

DNS 超时

docker 无法连接轩辕镜像域名怎么办？

域名连通性排查

Docker 拉取出现 410 Gone 怎么办？

410 Gone 排查

出现 402 或「流量用尽」提示怎么办？

402 与流量用尽

Docker 拉取提示 UNAUTHORIZED（401）怎么办？

401 认证失败

遇到 429 Too Many Requests（请求太频繁）怎么办？

429 限流

docker login 提示 Cannot autolaunch D-Bus，还算登录成功吗？

D-Bus 凭证提示

为什么会出现「单层超过 20GB」或 413，无法加速拉取？

413 与超大单层

账号 / 计费 / 权限

轩辕镜像免费版和专业版有什么区别？

免费版与专业版区别

轩辕镜像支持哪些 Docker 镜像仓库？

支持的镜像仓库

镜像拉取失败还会不会扣流量？

失败是否计费

麒麟 V10 / 统信 UOS 提示 KYSEC 权限不够怎么办？

KYSEC 拦截脚本

如何在轩辕镜像申请开具发票？

申请开票

怎么修改轩辕镜像的网站登录和仓库登录密码？

修改登录密码

如何注销轩辕镜像账户？要注意什么？

注销账户

配置与原理类

写了 registry-mirrors，为什么还是走官方或仍然报错？

mirrors 不生效

怎么用 docker tag 去掉镜像名里的轩辕域名前缀？

去掉域名前缀

如何拉取指定 CPU 架构的镜像（如 ARM64、AMD64）？

指定架构拉取

用轩辕镜像拉镜像时快时慢，常见原因有哪些？

拉取速度原因

为什么拉取镜像的 :latest 标签，拿到的往往不是「最新」镜像？

latest 与「最新」

查看全部问题→

用户好评

来自真实用户的反馈，见证轩辕镜像的优质服务

oldzhang

运维工程师

Linux服务器

"Docker访问体验非常流畅，大镜像也能快速完成下载。"