热门搜索:

LMSYS Org 开源大模型系统

LMSYS Org 聚焦大模型系统与评测基础设施，代表项目包括 SGLang、Chatbot Arena（已毕业）、Vicuna LLM 等。在容器生态中，lmsysorg 提供 SGLang 等镜像，帮助团队快速搭建高性能推理与评测服务。 https://lmsys.org

LMSYS Org（Large Model Systems Organization）是一个专注于“大模型 + 系统工程”的非营利机构，其使命是通过开源模型、数据集、系统与评测工具，让大模型能力变得开放、可访问、可扩展。根据官网 About 页面（https://lmsys.org/about/）的介绍，LMSYS 长期维护的代表性项目包括 Vicuna LLM、Chatbot Arena（已毕业）、SGLang、LMSYS-Chat-1M、FastChat、MT-Bench、Arena Hard Auto、RouteLLM 等，在开源模型、评测基准和系统工程三个层面形成完整生态。在容器与云原生场景下，LMSYS Org 通过 lmsysorg/sglang 等镜像，将高性能推理引擎和评测系统打包为可直接启动的服务，方便团队在本地机房或云环境中快速搭建自建 LLM 服务、评测基准与路由系统。与只封装单一模型的容器不同，SGLang 更强调系统视角：在同一套服务中管理多模型，结合并行执行和 KV Cache 提升吞吐量，并与 Chatbot Arena、MT-Bench 等评测方法结合，构成从部署到评测的完整闭环。

特色镜像推荐

SGLang 高性能推理引擎（lmsysorg/sglang）

SGLang 是 LMSYS 团队推出的高性能 LLM 推理与服务引擎，强调高吞吐与低延迟，支持多模型管理和 KV Cache 复用。在容器场景中通常以 lmsysorg/sglang 镜像形式部署，适合作为自建 LLM 服务与评测后端。

自建 LLM 推理服务高并发对话与补全 API与 Chatbot Arena / MT-Bench 集成多模型对比实验

LMSYS Org 开源大模型系统集合

sglang

LMSYS Org 开源大模型系统

这是用于开源项目sglang（GitHub地址：[https://github.com/sgl-project/sglang]

Docker images for https://github.com/sgl-project/sglang-jax

Repo to publish test images for sglang CD

504 次下载

--更新

典型使用场景

自建高性能 LLM 推理服务

在本地或云主机上拉起 lmsysorg/sglang 镜像，加载 Vicuna 等开源模型，对外暴露统一的推理 API，作为内部应用或研究项目的基础推理服务层。

lmsysorg/sglangVicunaGPU 加速

构建对话模型评测基准

利用 LMSYS 公布的 MT-Bench、Arena Hard Auto 等评测方法论，将自建模型接入 SGLang 服务，对接评测脚本，系统性地对比不同模型在真实对话与多轮任务中的表现。

lmsysorg/sglangMT-BenchArena Hard Auto

模型路由与多模型编排

结合 RouteLLM 等路由框架，将多个本地或云上模型统一暴露为服务，通过策略路由不同类型请求到最合适的模型，以平衡质量与成本。

lmsysorg/sglangRouteLLM本地与云上多模型

常见问题 (FAQ)

Q1:如何在本地快速拉取并查看 lmsysorg/sglang 镜像支持的运行参数？

在已经安装 Docker 的前提下，可以先执行 docker pull lmsysorg/sglang 拉取镜像，然后再运行 docker run --rm lmsysorg/sglang --help 查看命令行帮助，了解支持的子命令与关键参数。很多用户会先用 --help 确认可选参数，再结合官方文档中的推荐配置编写自己的 docker-compose.yml。

Q2:使用 lmsysorg/sglang 时，如何为模型权重和缓存配置持久化存储？

实际部署时通常会为模型权重与缓存单独挂载卷：1）在宿主机上预留目录（例如 /data/sglang/models、/data/sglang/cache）；2）在 docker run 或 Compose 中使用 -v /data/sglang/models:/models 这类参数挂载到容器内部路径；3）在 SGLang 的启动参数或配置文件中指定模型路径与缓存路径。这样即便容器被删除或升级，对应模型与缓存也能复用，避免重复下载和预热。具体挂载路径请以官方 README 中的建议为准。

Q3:部署基于 lmsysorg/sglang 的 GPU 推理服务时，需要关注哪些宿主机前置条件？

通用做法与其他 GPU 容器类似：1）在宿主机上安装匹配版本的 NVIDIA 驱动；2）安装 NVIDIA Container Toolkit，并通过 docker run --gpus all nvidia/cuda:xx.xx-base nvidia-smi 这类命令验证环境是否正常；3）确认显存容量、PCIe 拓扑与电源条件满足目标模型需求；4）在启动 lmsysorg/sglang 时添加 --gpus all 或在 Compose 中配置 deploy.resources.reservations.devices。只要宿主机的 GPU 环境已通过 CUDA 官方镜像验证，通常就可以稳定运行 SGLang 容器。

Q4:如何将通过 lmsysorg/sglang 部署的服务接入现有应用或评测脚本？

SGLang 通常提供 HTTP API 或与主流 LLM 调用模式兼容的接口，实践中有两种常见方式：1）在启动时指定监听端口（例如 30000），通过 http://主机名:端口的 HTTP 接口由应用或评测脚本直接调用；2）如果项目提供 OpenAI 兼容层，则可以在上层应用中将 Base URL 改为 SGLang 服务地址，并把模型名称改为在 SGLang 中注册的模型 ID。无论哪种方式，都建议先用 curl 或 Postman 做一次最小调用验证，再集成进业务代码。

Q5:想用 LMSYS 的评测方法（如 MT-Bench、Arena Hard Auto）对比自建模型，和容器化部署有什么结合方式？

常见实践是：1）先用 lmsysorg/sglang 将待比较的本地或云上模型统一暴露为一个或多个 HTTP 服务；2）在评测脚本中把模型端点改为对应的 SGLang 服务地址，确保请求格式与接口约定一致；3）根据 MT-Bench 或 Arena Hard Auto 的 README 准备评测集与打分逻辑；4）将评测结果导出为表格或可视化报告，结合 Chatbot Arena 的经验指标分析优劣。这样可以在保持评测框架不变的前提下，灵活替换底层模型与推理引擎。