用于部署和服务大型语言模型(LLMs)的高性能推理工具包,解决生产环境下高并发文本生成需求。核心特性:支持Llama、Falcon、StarCoder等主流开源LLM;Tensor Parallelism实现多GPU加速推理;连续批处理提升吞吐量;Token流式传输(Server-Sent Events, SSE);OpenAI Chat Completion API兼容的Messages API。技术架构:基于Rust、Python和gRPC构建,集成transformers优化代码(Flash Attention、Paged Attention),支持OpenTelemetry分布式追踪与Prometheus metrics。适用场景:生产环境下的LLM部署与服务,如聊天机器人、推理API、定制化文本生成及特定任务的微调模型应用。
请登录使用轩辕镜像享受快速拉取体验,支持国内访问优化,速度提升
docker pull ghcr.io/huggingface/text-generation-inference:latest-trtllmmanifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务