简体中文 | English | Türkçe
功能特性 • 快速开始 • 文档 • 贡献指南 • 许可证
如果您喜欢这个项目,请给它一个 Star⭐️,或请作者喝杯咖啡 => *** ❤️!
Easy Dataset 是一款专为构建大型语言模型(LLM)数据集设计的应用。它具备直观界面,内置强大的文档解析工具、智能分段算法、数据清洗与增强功能。该应用可将多种格式的领域文档转换为高质量结构化数据集,适用于模型微调、检索增强生成(RAG)、模型性能评估等场景。
🎉🎉 Easy Dataset 1.7.0 版本推出全新的评估功能!您可以轻松将领域文档转换为评估数据集(测试集)并自动运行多维度评估任务。此外,还内置人工盲测系统,助您轻松满足垂直领域模型评估、微调后模型性能检测、RAG 召回率评估等需求。教程:[***]
Windows
MacOS
Linux
Setup.exe
Intel
M
AppImage
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
npm install
npm run build
npm run start
http://localhost:1717git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
docker-compose.yml 文件:services:
easy-dataset:
image: ghcr.io/conardli/easy-dataset
container_name: easy-dataset
ports:
- '1717:1717'
volumes:
- ./local-db:/app/local-db
- ./prisma:/app/prisma
restart: unless-stopped
[!NOTE] 建议使用当前代码仓库目录下的
local-db和prisma文件夹作为挂载路径,以保持与通过 NPM 启动时的数据库路径一致。
[!NOTE] 首次启动时会自动初始化数据库文件,无需手动运行
npm run db:push。
docker-compose up -d
http://localhost:1717如果您想自行构建镜像,请使用项目根目录下的 Dockerfile:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
docker build -t easy-dataset .
docker run -d \
-p 1717:1717 \
-v ./local-db:/app/local-db \
-v ./prisma:/app/prisma \
--name easy-dataset \
easy-dataset
[!NOTE] 建议使用当前代码仓库目录下的
local-db和prisma文件夹作为挂载路径,以保持与通过 NPM 启动时的数据库路径一致。
[!NOTE] 首次启动时会自动初始化数据库文件,无需手动运行
npm run db:push。
http://localhost:1717我们欢迎社区贡献!如果您想为 Easy Dataset 做贡献,请遵循以下步骤:
git checkout -b feature/amazing-feature)git commit -m 'Add some amazing feature')git push origin feature/amazing-feature)请确保适当更新测试,并遵循现有编码风格。
本项目采用 AGPL 3.0 许可证授权 - 详见 LICENSE 文件。
如果本工作对您有帮助,请引用:
@misc{miao2025easydataset,
title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents},
author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang},
year={2025},
eprint={2507.04009},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2507.04009}
}
由 ConardLi 用心打造 • 关注我:微信公众号 | Bilibili | 掘金 | 知乎 | ***
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
docker search 限制
站内搜不到镜像
离线 save/load
插件要用 plugin install
WSL 拉取慢
安全与 digest
新手拉取配置
镜像合规机制
不支持 push
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
域名连通性排查
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务