
dustynv/transformers
容器镜像运行构建
HuggingFace Transformers库通过便捷的API支持各种NLP和视觉模型,被许多其他LLM包所使用。在HuggingFace Hub上有大量与其兼容的模型。
[!NOTE]
如果您希望使用Transformer的集成bitsandbytes量化(load_in_8bit/load_in_4bit)或AutoGPTQ量化,请运行以下容器,这些容器在Transformers基础上包含了相应的库:
auto_gptq(依赖于Transformers)bitsandbytes(依赖于Transformers)
替换您想要运行的文本生成模型(应该是像GPT、Llama等CausalLM模型)
bash./run.sh $(./autotag transformers) \ huggingface-benchmark.py --model=gpt2
如果模型仓库是私有的或需要身份验证,请添加
--env HUGGINGFACE_TOKEN=<您的访问令牌>
默认情况下,性能测量会生成128个新的输出标记(可以使用--tokens=N设置)
可以使用--prompt='your prompt here'更改提示
使用--precision参数启用量化(选项:fp32 fp16 fp4 int8,默认:fp16)
如果您使用fp4或int8,请运行上面提到的bitsandbytes容器,以便安装bitsandbytes包进行量化。预期通过Transformers的4位/8位量化比FP16慢(但消耗更少内存)- 更多信息请参见此处。
其他库如exllama、awq和AutoGPTQ有自定义CUDA内核和更高效的量化性能。
bash./run.sh --env HUGGINGFACE_TOKEN=<您的访问令牌> $(./autotag transformers) \ huggingface-benchmark.py --model=meta-llama/Llama-2-7b-hf
transformers | |
|---|---|
| 构建状态 | dustynv/transformers:git-r35.3.1 (2023-12-12, 5.9GB)dustynv/transformers:git-r35.4.1 (2023-12-11, 5.9GB)dustynv/transformers:nvgpt-r35.2.1 (2023-12-05, 5.9GB)dustynv/transformers:nvgpt-r35.3.1 (2023-12-15, 5.9GB)dustynv/transformers:nvgpt-r35.4.1 (2023-12-14, 5.9GB)dustynv/transformers:r32.7.1 (2023-12-15, 1.5GB)dustynv/transformers:r35.2.1 (2023-12-11, 5.9GB)dustynv/transformers:r35.3.1 (2023-12-12, 5.9GB)dustynv/transformers:r35.4.1 (2023-12-15, 5.9GB)dustynv/transformers:r36.2.0 (2023-12-15, 7.6GB) |
| 说明 | 在JetPack5上添加了bitsandbytes和auto_gptq依赖项,用于4位/8位量化 |
transformers:git | |
|---|---|
| 构建状态 | dustynv/transformers:git-r35.3.1 (2023-12-12, 5.9GB)dustynv/transformers:git-r35.4.1 (2023-12-11, 5.9GB) |
| 说明 | 在JetPack5上添加了bitsandbytes和auto_gptq依赖项,用于4位/8位量化 |
transformers:nvgpt | |
|---|---|
| 构建状态 | 





manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务