VolcEngine/verl 是火山引擎推出的强化学习框架,旨在提供高效、易用的强化学习开发与训练工具,支持多种经典及前沿算法,具备高性能计算与灵活扩展能力,助力开发者快速构建、训练和部署强化学习模型;hiyouga/EasyR1 则是一款轻量级强化学习工具库,专注于简化强化学习流程,通过直观的接口设计、丰富的示例代码及详尽文档,降低入门门槛,适合初学者快速上手及科研人员进行快速原型开发,为强化学习学习与应用提供便捷支持。
收藏数: 8
下载次数: 70844
类型:

hiyouga/verlVERL 是火山引擎开发的强化学习(RL)平台,主打高性能和易用性,核心特点包括:
bash# 从源码安装(推荐) git clone [***] cd verl && pip install -e .
pythonfrom verl.algorithms import PPO from verl.environments import GymEnv # 初始化环境和算法 env = GymEnv("CartPole-v1") agent = PPO(env.observation_space, env.action_space, lr=3e-4) # 训练 100 个回合 for episode in range(100): obs = env.reset() total_reward = 0 while True: action = agent.select_action(obs) next_obs, reward, done, _ = env.step(action) agent.store_transition(obs, action, reward, next_obs, done) total_reward += reward if done: agent.update() # 每回合更新策略 print(f"Episode {episode}, Reward: {total_reward}") break obs = next_obs
EasyR1 是针对 R1 任务(一种检索增强生成任务,结合检索和生成的混合 NLP 任务)的轻量级实现,特点如下:
bash# 克隆仓库并安装依赖 git clone [***] cd EasyR1 && pip install -r requirements.txt
pythonfrom easyr1 import R1Pipeline # 初始化 R1 流程(指定模型和检索库) pipeline = R1Pipeline( model_name_or_path="lmsys/vicuna-7b-v1.5", # 选用 Vicuna-7B 模型 retriever_type="faiss", # 使用 FAISS 检索器 corpus_path="data/sample_corpus.txt" # 检索库文本文件 ) # 输入问题,获取 R1 生成结果 question = "强化学习和监督学习的核心区别是什么?" response = pipeline.generate(question, top_k=3) # 检索 top 3 相关文本 print(f"Answer: {response}")
VERL 聚焦强化学习全流程开发,适合需要高性能训练和工业级部署的场景;EasyR1 则专注于 R1 任务的轻量化落地,适合学习和小规模 RAG 应用。两者均提供开源代码和详细示例,降低了对应领域的上手门槛。
以下是 hiyouga/verl 相关的常用 Docker 镜像,适用于 不同场景 等不同场景:
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 版本下载页面。


manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务