如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
🚀 零训练情况下推理任务准确率提升 2-10 倍
🤗 HuggingFace Space • 📓 Colab 演示 • 💬 讨论区
OptiLLM 是一个与 OpenAI API 兼容的优化推理代理,它实现了 20 多种最先进技术,可显著提高 LLM 在推理任务上的准确率和性能——无需任何模型训练或微调。
通过在推理时进行额外计算,使用这些技术可以在各种任务上超越前沿模型。Cerebras 的 CePO 方法 就是一个很好的将这些技术结合使用的例子。
通过 3 个简单步骤获得强大的推理能力提升:
# 1. 安装 OptiLLM
pip install optillm
# 2. 启动服务器
export OPENAI_API_KEY="your-key-here"
optillm
# 3. 与任何 OpenAI 客户端配合使用 - 只需更改模型名称!
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1")
# 添加 'moa-' 前缀启用 Mixture of Agents 优化
response = client.chat.completions.create(
model="moa-gpt-4o-mini", # 这能让 GPT-4o-mini 达到 GPT-4o 的性能!
messages=[{"role": "user", "content": "求解:若 2x + 3 = 7,x 的值是多少?"}]
)
使用 OptiLLM 前:"x = 1" ❌
使用 OptiLLM 后:"让我逐步解答:2x + 3 = 7,所以 2x = 4,因此 x = 2" ✅
OptiLLM 在各种基准测试中均实现了可衡量的提升:
| 技术 | 基础模型 | 提升 | 基准测试 |
|---|---|---|---|
| MARS | Gemini 2.5 Flash Lite | +30.0 分 | AIME 2025 (43.3→73.3) |
| CePO | Llama 3.3 70B | +18.6 分 | Math-L5 (51.0→69.6) |
| AutoThink | DeepSeek-R1-1.5B | +9.34 分 | GPQA-Diamond (21.72→31.06) |
| LongCePO | Llama 3.3 70B | +13.6 分 | InfiniteBench (58.0→71.6) |
| MOA | GPT-4o-mini | 匹配 GPT-4 | Arena-Hard-Auto |
| PlanSearch | GPT-4o-mini | +20% pass@5 | LiveCodeBench |
完整基准测试结果见下方 ⬇️
pip install optillm
optillm
2024-10-22 07:45:05,612 - INFO - Loaded plugin: privacy
2024-10-22 07:45:06,293 - INFO - Loaded plugin: memory
2024-10-22 07:45:06,293 - INFO - Starting server with approach: auto
docker pull ghcr.io/algorithmicsuperintelligence/optillm:latest
docker run -p 8000:8000 ghcr.io/algorithmicsuperintelligence/optillm:latest
2024-10-22 07:45:05,612 - INFO - Loaded plugin: privacy
2024-10-22 07:45:06,293 - INFO - Loaded plugin: memory
2024-10-22 07:45:06,293 - INFO - Starting server with approach: auto
可用的 Docker 镜像变体:
latest): 包含本地推理和插件的所有依赖latest-proxy): 轻量级镜像,无本地推理能力latest-offline): 自包含镜像,预下载模型(spaCy),支持完全离线运行# 仅代理(最小镜像)
docker pull ghcr.io/algorithmicsuperintelligence/optillm:latest-proxy
# 离线版(最大镜像,包含预下载模型)
docker pull ghcr.io/algorithmicsuperintelligence/optillm:latest-offline
使用 git 克隆仓库,并通过 pip install 安装依赖。
git clone https://github.com/algorithmicsuperintelligence/optillm.git
cd optillm
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
OptiLLM 支持 SSL 证书验证配置,可用于自签名证书或企业代理环境。
禁用 SSL 验证(仅开发环境):
# 命令行
optillm --no-ssl-verify
# 环境变量
export OPTILLM_SSL_VERIFY=false
optillm
使用自定义 CA 证书:
# 命令行
optillm --ssl-cert-path /path/to/ca-bundle.crt
# 环境变量
export OPTILLM_SSL_CERT_PATH=/path/to/ca-bundle.crt
optillm
[!WARNING] 安全注意:禁用 SSL 验证不安全,仅应在开发环境中使用。对于使用自定义 CA 的生产环境,请改用
--ssl-cert-path。详情参见 SSL_CONFIGURATION.md。
| 方法 | Slug | 描述 |
|---|---|---|
| MARS (多智能体推理系统) | mars | 具有多样化温度探索、交叉验证和迭代改进的多智能体推理 |
| Cerebras 规划与优化 | cepo | 结合了Best of N、思维链(***of-Thought)、自我反思、自我改进及多种提示技术 |
| 带反思的思维链 | cot_reflection | 实现带有\、\和\部分的思维链推理 |
| 计划搜索 | plansearch | 实现对候选计划的搜索算法,用于解决自然语言问题 |
| 重读优化 | re2 | 通过两次处理查询实现重读以改进推理 |
| 自一致性 | self_consistency | 实现高级自一致性方法 |
| Z3 求解器 | z3 | 利用Z3定理证明器进行逻辑推理 |
| R* 算法 | rstar | 实现用于问题解决的R*算法 |
| LEAP | leap | 从少量示例中学习特定任务的原理 |
| 往返优化 | rto | 通过往返过程优化响应 |
| Best of N 采样 | bon | 生成多个响应并选择最佳响应 |
| 智能体混合 | moa | 结合来自多个评论的响应 |
| 蒙特卡洛树搜索 | mcts | 使用MCTS进行聊天响应决策 |
| PV 博弈 | pvg | 在推理时应用证明者-验证者博弈方法 |
| 深度置信 | N/A for proxy | 实现具有多个强度级别的置信度引导推理,以提高准确性 |
| 思维链解码 | N/A for proxy | 实现思维链解码,无需显式提示即可激发推理 |
| 熵解码 | N/A for proxy | 基于生成过程中令牌的不确定性实现自适应采样 |
| Thinkdeeper | N/A for proxy | 为DeepSeek R1等推理模型实现OpenAI的reasoning_effort参数 |
| AutoThink | N/A for proxy | 结合查询复杂度分类与引导向量以增强推理 |
| 插件 | Slug | 描述 |
|---|---|---|
| 系统提示学习 | spl | 实现Andrej Karpathy所说的第三范式用于LLM学习,使模型能够获取程序解决知识和策略 |
| 深度思考 | deepthink | 使用推理时缩放为推理型LLM实现类Gemini的深度思考方法 |
| 长上下文Cerebras规划与优化 | longcepo | 结合规划和分治处理长文档,实现无限上下文 |
| 多数投票 | majority_voting | 生成k个候选解决方案,并通过多数投票选择最频繁的答案(默认k=6) |
| MCP客户端 | mcp | 实现模型上下文协议(MCP)客户端,使您能够将任何LLM与任何MCP服务器一起使用 |
| 路由 | router | 使用optillm-modernbert-large模型根据用户提示将请求路由到不同方法 |
| 代码链 | coc | 实现代码链方法,将思维链与代码执行和基于LLM的代码模拟相结合 |
| 内存 | memory | 实现短期内存层,使您能够对任何LLM使用无界上下文长度 |
| 隐私 | privacy | 对请求中的PII数据进行***化,并在响应中将其还原为原始值 |
| 读取URL | readurls | 读取请求中找到的所有URL,获取URL内容并将其添加到上下文中 |
| 执行代码 | executecode | 支持使用代码解释器执行请求和LLM生成响应中的Python代码 |
| JSON | json | 使用outlines库实现结构化输出,支持pydantic类型和JSON模式 |
| 生成选择 | genselect | 生成式解决方案选择 - 生成多个候选并基于质量标准选择最佳方案 |
| 网络搜索 | web_search | 使用Chrome自动化(Selenium)执行Google搜索以收集搜索结果和URL |
| 深度研究 | deep_research | 实现测试时扩散深度研究员(TTD-DR),通过迭代优化生成全面研究报告 |
| 代理 | proxy | 跨多个LLM提供商的负载均衡和故障转移,具有健康监控和轮询路由 |
我们支持所有主要的LLM提供商和推理模型。您需要设置正确的环境变量,代理将选择相应的客户端。
| 提供商 | 所需环境变量 | 补充说明 |
|---|---|---|
| OptiLLM | OPTILLM_API_KEY | 使用内置本地服务器进行推理,支持logprobs以及cot_decoding和entropy_decoding等解码技术 |
| OpenAI | OPENAI_API_KEY | 可通过设置base_url将其用于任何OpenAI兼容端点(如OpenRouter) |
| Cerebras | CEREBRAS_API_KEY | 可用于支持模型的快速推理,详见文档 |
| Azure OpenAI | AZURE_OPENAI_API_KEY AZURE_API_VERSION AZURE_API_BASE | - |
| Azure OpenAI(托管标识) | AZURE_API_VERSION AZURE_API_BASE | 需要使用az login登录,详见文档 |
| LiteLLM | 取决于模型 | 详见文档 |
您可以按如下方式运行optillm代理:
python optillm.py
2024-09-06 07:57:14,191 - INFO - Starting server with approach: auto
2024-09-06 07:57:14,191 - INFO - Server configuration: {'approach': 'auto', 'mcts_simulations': 2, 'mcts_exploration': 0.2, 'mcts_depth': 1, 'best_of_n': 3, 'model': 'gpt-4o-mini', 'rstar_max_depth': 3, 'rstar_num_rollouts': 5, 'rstar_c': 1.4, 'base_url': '', 'host': '127.0.0.1'}
* Serving Flask app 'optillm'
* Debug mode: off
2024-09-06 07:57:14,212 - INFO - WARNING: This is a development server. Do not use it in a production deployment. Use a production WSGI server instead.
* Running on http://127.0.0.1:8000
2024-09-06 07:57:14,212 - INFO - Press CTRL+C to quit
代理运行后,只需将 base_url 设置为 http://localhost:8000/v1,即可将其作为 OpenAI 客户端的直接替代品使用。
import os
from openai import OpenAI
OPENAI_KEY = os.environ.get("OPENAI_API_KEY")
OPENAI_BASE_URL = "http://localhost:8000/v1"
client = OpenAI(api_key=OPENAI_KEY, base_url=OPENAI_BASE_URL)
response = client.chat.completions.create(
model="moa-gpt-4o",
messages=[
{
"role": "user",
"content": "Write a Python program to build an RL model to recite text from any position that the user provides, using only numpy."
}
],
temperature=0.2
)
print(response)
上述代码适用于 OpenAI 和 Azure OpenAI,只需记住使用正确的密钥填充 OPENAI_API_KEY 环境变量即可。
有多种方式可以控制优化技术,它们按以下优先级顺序应用:
{slug}-model-name 来控制优化技术。例如,在上述代码中,我们使用 moa(即混合智能体)作为优化方法。在代理日志中,你将看到以下内容,显示 moa 与基础模型 gpt-4o-mini 一起使用。2024-09-06 08:35:32,597 - INFO - Using approach moa, with gpt-4o-mini
2024-09-06 08:35:35,358 - INFO - HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
2024-09-06 08:35:39,553 - INFO - HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
2024-09-06 08:35:44,795 - INFO - HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
2024-09-06 08:35:44,797 - INFO - 127.0.0.1 - - [06/Sep/2024 08:35:44] "POST /v1/chat/completions HTTP/1.1" 200 -
extra_body 中的 optillm_approach 字段中传递标识符。response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{ "role": "user","content": "" }],
temperature=0.2,
extra_body={"optillm_approach": "bon|moa|mcts"}
)
system 或 user 提示中,使用 标签提及该方法即可。response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{ "role": "user","content": " re2 How many r's are there in strawberry?" }],
temperature=0.2
)
[!TIP] 你还可以使用符号
&和|组合不同的技术。使用&时,技术将按从左到右的顺序以管道方式处理,前一阶段的响应将作为下一阶段的请求。而使用|时,我们会并行运行所有请求,并生成多个响应作为列表返回。
请注意,上述约定仅在 optillm 服务器以推理方法设置为 auto 启动时才有效。否则,客户端请求中的 model 属性必须仅设置为模型名称。
我们现在支持所有 LLM 提供商(通过包装 LiteLLM SDK 实现)。例如,你可以将 moa 与 Gemini Flash 模型一起使用,方法是在环境变量 os.environ['GEMINI_API_KEY'] 中设置 API 密钥,然后调用模型 moa-gemini/gemini-1.5-flash-002。在输出中,你将看到 LiteLLM 被用于调用基础模型。
9:43:21 - LiteLLM:INFO: utils.py:2952 -
LiteLLM completion() model= gemini-1.5-flash-002; provider = gemini
2024-09-29 19:43:21,011 - INFO -
LiteLLM completion() model= gemini-1.5-flash-002; provider = gemini
2024-09-29 19:43:21,481 - INFO - HTTP Request: POST https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash-002:generateContent?key=[redacted] "HTTP/1.1 200 OK"
19:43:21 - LiteLLM:INFO: utils.py:988 - Wrapper: Completed Call, calling success_handler
2024-09-29 19:43:21,483 - INFO - Wrapper: Completed Call, calling success_handler
19:43:21 - LiteLLM:INFO: utils.py:2952 -
LiteLLM completion() model= gemini-1.5-flash-002; provider = gemini
[!TIP] optillm 是一个透明代理,可与任何具有 OpenAI API 兼容聊天补全端点的 LLM API 或提供商配合使用,反过来,optillm 也公开相同的 OpenAI API 兼容聊天补全端点。这使你能够轻松将其集成到任何现有工具或框架中。如果你想使用的 LLM 没有 OpenAI API 兼容端点(如 Google 或 Anthropic),可以使用 LiteLLM 代理服务器,它支持大多数 LLM。
以下序列图说明了请求和响应如何通过 optillm。
在图中:
A 是现有工具(如 https://github.com/oobabooga/text-generation-webui/%EF%BC%89%E3%80%81%E6%A1%86%E6%9E%B6%EF%BC%88%E5%A6%82 https://github.com/patched-codes/patchwork%EF%BC%89%E6%88%96%E4%BD%A0%E8%87%AA%E5%B7%B1%E7%9A%84%E4%BB%A3%E7%A0%81%EF%BC%8C%E4%BD%A0%E5%B8%8C%E6%9C%9B%E5%9C%A8%E5%85%B6%E4%B8%AD%E4%BD%BF%E7%94%A8 optillm 的结果。你可以直接使用任何 OpenAI 客户端 SDK 来使用它。B 是 optillm 服务(直接运行或在 Docker 容器中运行),它将向 base_url 发送请求。C 是任何提供 OpenAI API 兼容聊天补全端点的服务。我们支持在 optillm 中直接加载任何 HuggingFace 模型或 LoRA。要使用内置推理服务器,请将 OPTILLM_API_KEY 设置为任意值(例如 export OPTILLM_API_KEY="optillm"),然后在 OpenAI 客户端中使用相同的值。你可以在 model 字段中传递任何 HuggingFace 模型。如果是私有模型,请确保使用你的 HuggingFace 密钥设置 HF_TOKEN 环境变量。我们还支持通过 + 分隔符在模型之上添加任意数量的 LoRA。
例如,以下代码加载基础模型 meta-llama/Llama-3.2-1B-Instruct,然后在其之上添加两个 LoRA:patched-codes/Llama-3.2-1B-FixVulns 和 patched-codes/Llama-3.2-1B-FastApply。你可以通过 OpenAI SDK 客户端的 extra_body 字段中的 active_adapter 参数指定要使用的 LoRA。默认情况下,我们将加载最后指定的适配器。
OPENAI_BASE_URL = "http://localhost:8000/v1"
OPENAI_KEY = "optillm"
response = client.chat.completions.create(
model="meta-llama/Llama-3.2-1B-Instruct+patched-codes/Llama-3.2-1B-FastApply+patched-codes/Llama-3.2-1B-FixVulns",
messages=messages,
temperature=0.2,
logprobs = True,
top_logprobs = 3,
extra_body={"active_adapter": "patched-codes/Llama-3.2-1B-FastApply"},
)
你还可以直接在本地推理服务器上使用替代解码技术,如 cot_decoding(思维链解码)和 entropy_decoding(熵解码)。
模型上下文协议(MCP)插件使 OptiLLM 能够连接 MCP 服务器,将外部工具、资源和提示词引入语言模型的上下文中。这支持与文件系统访问、数据库查询、API 连接等进行强大集成。
OptiLLM 通过多种传输方式支持本地和远程 MCP 服务器:
什么是 MCP?
模型上下文协议(MCP)是一种开放协议标准,允许大型语言模型(LLMs)通过标准化接口安全访问工具和数据源。MCP 服务器可提供:
配置
设置 MCP 配置
[!NOTE] 关于向后兼容性:现有的 MCP 配置将继续正常工作,无需更改。未指定
transport字段时,默认值为 "stdio",与现有设置保持完全向后兼容。
~/.optillm/mcp_config.json 创建配置文件,结构如下:本地服务器(stdio)- 传统方式:
{
"mcpServers": {
"filesystem": {
"transport": "stdio",
"command": "npx",
"args": [
"-y",
"@modelcontextprotocol/server-filesystem",
"/path/to/allowed/directory1",
"/path/to/allowed/directory2"
],
"env": {},
"description": "Local filesystem access"
}
},
"log_level": "INFO"
}
旧版格式(仍可使用):
{
"mcpServers": {
"filesystem": {
"command": "npx",
"args": ["-y", "@modelcontextprotocol/server-filesystem", "/path/to/directory"],
"env": {}
}
}
}
远程服务器(SSE)- 新功能:
{
"mcpServers": {
"github": {
"transport": "sse",
"url": "https://api.githubcopilot.com/mcp",
"headers": {
"Authorization": "Bearer ${GITHUB_TOKEN}",
"Accept": "text/event-stream"
},
"timeout": 30.0,
"sse_read_timeout": 300.0,
"description": "GitHub MCP server for repository access"
}
},
"log_level": "INFO"
}
远程服务器(WebSocket)- 新功能:
{
"mcpServers": {
"remote-ws": {
"transport": "websocket",
"url": "wss://api.example.com/mcp",
"description": "Remote WebSocket MCP server"
}
},
"log_level": "INFO"
}
混合配置(本地 + 远程):
{
"mcpServers": {
"filesystem": {
"transport": "stdio",
"command": "npx",
"args": ["-y", "@modelcontextprotocol/server-filesystem", "/home/user/docs"],
"description": "Local filesystem access"
},
"github": {
"transport": "sse",
"url": "https://api.githubcopilot.com/mcp",
"headers": {
"Authorization": "Bearer ${GITHUB_TOKEN}"
},
"description": "GitHub MCP server"
},
"remote-api": {
"transport": "websocket",
"url": "wss://api.company.com/mcp",
"description": "Company internal MCP server"
}
},
"log_level": "INFO"
}
配置参数
通用参数:
stdio 传输(本地服务器):
sse 传输(服务器发送事件):
websocket 传输(WebSocket):
环境变量扩展:
头信息和其他字符串值支持使用 ${VARIABLE_NAME} 语法进行环境变量扩展。这对于 API 密钥尤其有用:
{
"headers": {
"Authorization": "Bearer ${GITHUB_TOKEN}",
"X-API-Key": "${MY_API_KEY}"
}
}
可用的 MCP 服务器
OptiLLM 支持本地和远程 MCP 服务器:
本地 MCP 服务器(stdio 传输)
您可以使用任何 官方 MCP 服务器 或作为本地进程运行的第三方服务器:
@modelcontextprotocol/server-filesystem - 文件操作mcp-server-git - Git 仓库操作@modelcontextprotocol/server-sqlite - SQLite 数据库访问@modelcontextprotocol/server-brave-search - 网络搜索功能远程 MCP 服务器(SSE/WebSocket 传输)
远程服务器提供集中式访问,无需本地安装:
https://api.githubcopilot.com/mcp - 仓库管理、问题跟踪和代码分析示例:综合配置
{
"mcpServers": {
"filesystem": {
"transport": "stdio",
"command": "npx",
"args": ["-y", "@modelcontextprotocol/server-filesystem", "/home/user/documents"],
"description": "Local file system access"
},
"search": {
"transport": "stdio",
"command": "npx",
"args": ["-y", "@modelcontextprotocol/server-brave-search"],
"env": {
"BRAVE_API_KEY": "your-api-key-here"
},
"description": "Web search capabilities"
},
"github": {
"transport": "sse",
"url": "https://api.githubcopilot.com/mcp",
"headers": {
"Authorization": "Bearer ${GITHUB_TOKEN}",
"Accept": "text/event-stream"
},
"description": "GitHub repository and issue management"
}
},
"log_level": "INFO"
}
optillm 可以选择使用 Docker 和提供的 https://github.com/algorithmicsuperintelligence/optillm/blob/main/Dockerfile 进行构建和运行。
确保您的系统上已安装 Docker 和 Docker Compose。
要么更新 docker-compose.yaml 文件中的环境变量,要么在项目根目录创建 .env 文件并添加您想要设置的任何环境变量。例如,要设置 OpenAI API 密钥,请在 .env 文件中添加以下行:
OPENAI_API_KEY=your_openai_api_key_here
docker compose up -d
如果 Docker 镜像不存在,这将构建该镜像并启动 optillm 服务。
http://localhost:8000 可用。使用 Docker 时,您可以将这些参数设置为环境变量。例如,要设置方法和模型,您可以使用:
OPTILLM_APPROACH=mcts
OPTILLM_MODEL=gpt-4
要使用 API 密钥保护 optillm 代理,请设置 OPTILLM_API_KEY 环境变量:
OPTILLM_API_KEY=your_secret_api_key
当设置 API 密钥后,客户端必须在请求中使用 Authorization 头包含该密钥:
Authorization: Bearer your_secret_api_key
| 基准测试 | 方法 | 问题数 | 正确数 | 准确率 | 提升幅度 |
|---|---|---|---|---|---|
| AIME 2025 | Baseline | 30 | 13 | 43.3% | - |
| AIME 2025 | MARS | 30 | 22 | 73.3% | +30.0pp (+69.2%) |
| IMO 2025 | Baseline | 6 | 1 | 16.7% | - |
| IMO 2025 | MARS | 6 | 2 | 33.3% | +16.7pp (+100%) |
| LiveCodeBench v5/v6 | Baseline | 105 | 41 | 39.05% | - |
| LiveCodeBench v5/v6 | MARS | 105 | 53 | 50.48% | +11.43pp (+29.3%) |
模型:通过 OpenRouter 使用 google/gemini-2.5-flash-lite-preview-09-2025
配置:3 个智能体,2 轮验证,证明禁用思考标签
| 模型 | GPQA-Diamond | MMLU-Pro | ||
|---|---|---|---|---|
| 准确率(%) | 平均 tokens | 准确率(%) | 平均 tokens | |
| DeepSeek-R1-Distill-Qwen-1.5B | 21.72 | 7868.26 | 25.58 | 2842.75 |
| with Fixed Budget | 28.47 | 3570.00 | 26.18 | 1815.67 |
| with AutoThink | 31.06 | 3520.52 | 26.38 | 1792.50 |
| 模型¹ | 上下文窗口 | 短样本(最多 32K 词) | 中等样本(32–128K 词) |
|---|---|---|---|
| Llama 3.3 70B Instruct | 128K | 36.7 (45.0) | 27.0 (33.0) |
| LongCePO + Llama 3.3 70B Instruct | 8K | 36.8 ± 1.38 | 38.7 ± 2.574 (39.735)² |
| Mistral-Large-Instruct-2411 | 128K | 41.7 (46.1) | 30.7 (34.9) |
| o1-mini-2024-09-12 | 128K | 48.6 (48.9) | 33.3 (32.9) |
| Claude-3.5-Sonnet-20241022 | 200K | 46.1 (53.9) | 38.6 (41.9) |
| Llama-4-Maverick-17B-128E-Instruct | 524K | 32.22 (50.56) | 28.84 (41.86) |
¹ 性能数据由 LongBench v2 作者报告,LongCePO 和 Llama-4-Maverick 的结果除外。
² LongCePO 的括号中数字表示 5 次运行的多数投票准确率。
| 模型 | 准确率(%) |
|---|---|
| Llama 3.3 70B Instruct(完整上下文) | 58.0 |
| LongCePO + Llama 3.3 70B Instruct(8K 上下文) | 71.6 ± 1.855 (73.0)¹ |
| o1-mini-2024-09-12(完整上下文) | 58.0 |
| gpt-4o-2024-08-06(完整上下文) | 74.0 |
¹ LongCePO 的括号中数字表示 5 次运行的多数投票准确率。
| 方法 | AIME 2024 | AIME 2025 | GPQA | LiveCodeBench |
|---|---|---|---|---|
| Qwen3 8B | 74.0 | 68.3 | 59.3 | 55.7 |
| CePO (using Qwen3 8B) | 86.7 | 80.0 | 62.5 | 60.5 |
| Qwen3 32B | 81.4 | 72.9 | 66.8 | 65.7 |
| CePO (using Qwen3 32B) | 90.7 | 83.3 | 70.0 | 71.9 |
| Qwen3 235B | 85.7 | 81.5 | 71.1 | 70.7 |
| DeepSeek R1 | 79.8 | 70.0 | 71.5 | 64.3 |
| OpenAI o3-mini | 79.6 | 74.8 | 76.8 | 66.3 |
| Grok3 Think | 83.9 | 77.3 | 80.2 | 70.6 |
| 方法 | Math-L5 | MMLU-Pro (Math) | CRUX | LiveCodeBench (pass@1) | Simple QA |
|---|---|---|---|---|---|
| Llama 3.3 70B | 51.0 | 78.6 | 72.6 | 27.1 | 20.9 |
| Llama 3.1 405B | 49.8 | 79.2 | 73.0 | 31.8 | 13.5 |
| CePO (using Llama 3.3 70B) | 69.6 | 84.8 | 80.1 | 31.9 | 22.6 |
| QwQ 32B | 61.4 | 90.8 | 82.5 | 44.3 | 7.8 |
| CePO (using QwQ 32B) | 88.1 | 92.0 | 86.3 | 51.5 | 8.2 |
| DeepSeek R1 Llama | 83.1 | 82.0 | 84.0 | 47.3 | 14.6 |
| CePO (using DeepSeek R1 Llama) | 90.2 | 84.0 | 89.4 | 47.2 | 15.5 |
| 模型 | 得分 |
|---|---|
| o1-mini | 56.67 |
| coc-claude-3-5-sonnet-20241022 | 46.67 |
| coc-gemini/gemini-exp-1121 | 46.67 |
| o1-preview | 40.00 |
| gemini-exp-1114 | 36.67 |
| claude-3-5-sonnet-20241022 | 20.00 |
| gemini-1.5-pro-002 | 20.00 |
| gemini-1.5-flash-002 | 16.67 |
| 模型 | 准确率 |
|---|---|
| readurls&memory-gpt-4o-mini | 61.29 |
| gpt-4o-mini | 50.61 |
| readurls&memory-Gemma2-9b | 30.1 |
| Gemma2-9b | 5.1 |
| Gemma2-27b | 30.8 |
| Gemini Flash 1.5 | 66.5 |
| Gemini Pro 1.5 | 72.9 |
| 模型 | pass@1 | pass@5 | pass@10 |
|---|---|---|---|
| plansearch-gpt-4o-mini | 44.03 | 59.31 | 63.5 |
| gpt-4o-mini | 43.9 | 50.61 | 53.25 |
| claude-3.5-sonnet | 51.3 | ||
| gpt-4o-2024-05-13 | 45.2 | ||
| gpt-4-turbo-2024-04-09 | 44.2 |
由于 optillm 是 OpenAI API 的即插即用替代品,您可以使用 OpenAI 客户端轻松将其与现有工具和框架集成。我们将 optillm 与 https://github.com/patched-codes/patchwork%EF%BC%88%E4%B8%80%E4%B8%AA%E5%BC%80%E6%BA%90%E6%A1%86%E6%9E%B6%EF%BC%8C%E9%80%9A%E8%BF%87%E7%A7%B0%E4%B8%BA patchflows 的工作流自动化 PR 审查、错误修复、安全补丁等开发杂务)一起使用。使用智能体混合方法(moa)时,我们观察到所有支持的 patchflows 都有显著的性能提升,如下所示。
OptiLLM 包含全面的测试套件,以确保可靠性和兼容性。
主测试套件可从项目根目录运行:
# 使用默认测试用例测试所有方法
python tests/test.py
# 测试特定方法
python tests/test.py --approaches moa bon mcts
# 运行单个测试
python tests/test.py --single-test "Simple Math Problem"
来自真实用户的反馈,见证轩辕镜像的优质服务