官方QQ群: 1072982923
vLLM 是面向大语言模型(LLM)推理与服务的高性能引擎项目,强调高吞吐、低延迟与显存高效利用,支持将模型以 OpenAI 兼容 API 形式对外提供服务,并覆盖 GPU/TPU 等多种硬件场景,适合构建生产级模型服务。