如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
简体中文 | English | Türkçe
功能特性 • 快速开始 • 文档 • 贡献指南 • 许可证
如果您喜欢这个项目,请给它一个 Star⭐️,或请作者喝杯咖啡 => *** ❤️!
Easy Dataset 是一款专为构建大型语言模型(LLM)数据集设计的应用。它具备直观界面,内置强大的文档解析工具、智能分段算法、数据清洗与增强功能。该应用可将多种格式的领域文档转换为高质量结构化数据集,适用于模型微调、检索增强生成(RAG)、模型性能评估等场景。
🎉🎉 Easy Dataset 1.7.0 版本推出全新的评估功能!您可以轻松将领域文档转换为评估数据集(测试集)并自动运行多维度评估任务。此外,还内置人工盲测系统,助您轻松满足垂直领域模型评估、微调后模型性能检测、RAG 召回率评估等需求。教程:[***]
Windows
MacOS
Linux
Setup.exe
Intel
M
AppImage
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
npm install
npm run build
npm run start
http://localhost:1717git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
docker-compose.yml 文件:services:
easy-dataset:
image: ghcr.io/conardli/easy-dataset
container_name: easy-dataset
ports:
- '1717:1717'
volumes:
- ./local-db:/app/local-db
- ./prisma:/app/prisma
restart: unless-stopped
[!NOTE] 建议使用当前代码仓库目录下的
local-db和prisma文件夹作为挂载路径,以保持与通过 NPM 启动时的数据库路径一致。
[!NOTE] 首次启动时会自动初始化数据库文件,无需手动运行
npm run db:push。
docker-compose up -d
http://localhost:1717如果您想自行构建镜像,请使用项目根目录下的 Dockerfile:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
docker build -t easy-dataset .
docker run -d \
-p 1717:1717 \
-v ./local-db:/app/local-db \
-v ./prisma:/app/prisma \
--name easy-dataset \
easy-dataset
[!NOTE] 建议使用当前代码仓库目录下的
local-db和prisma文件夹作为挂载路径,以保持与通过 NPM 启动时的数据库路径一致。
[!NOTE] 首次启动时会自动初始化数据库文件,无需手动运行
npm run db:push。
http://localhost:1717我们欢迎社区贡献!如果您想为 Easy Dataset 做贡献,请遵循以下步骤:
git checkout -b feature/amazing-feature)git commit -m 'Add some amazing feature')git push origin feature/amazing-feature)请确保适当更新测试,并遵循现有编码风格。
本项目采用 AGPL 3.0 许可证授权 - 详见 LICENSE 文件。
如果本工作对您有帮助,请引用:
@misc{miao2025easydataset,
title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents},
author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang},
year={2025},
eprint={2507.04009},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2507.04009}
}
由 ConardLi 用心打造 • 关注我:微信公众号 | Bilibili | 掘金 | 知乎 | ***
来自真实用户的反馈,见证轩辕镜像的优质服务