专属域名
文档搜索
轩辕助手
Run助手
邀请有礼
返回顶部
快速返回页面顶部
收起
收起工具栏
轩辕镜像 官方专业版
轩辕镜像
专业版
轩辕镜像 官方专业版
轩辕镜像
专业版
首页个人中心搜索镜像

交易
充值流量我的订单
工具
提交工单镜像收录一键安装
Npm 源Pip 源Homebrew 源
帮助
常见问题轩辕镜像免费版
其他
关于我们网站地图
热门搜索:
ghcr.io/conardli/easy-dataset

ghcr.io/conardli/easy-dataset:1.6.2

ghcr.iolinux/amd641.6.2大小: 未知更新于 2026年5月23日

一款强大的大型语言模型微调数据集创建工具

简体中文 | English | Türkçe

功能特性 • 快速开始 • 文档 • 贡献指南 • 许可证

如果您喜欢这个项目,请给它一个 Star⭐️,或请作者喝杯咖啡 => *** ❤️!

概述

Easy Dataset 是一款专为构建大型语言模型(LLM)数据集设计的应用。它具备直观界面,内置强大的文档解析工具、智能分段算法、数据清洗与增强功能。该应用可将多种格式的领域文档转换为高质量结构化数据集,适用于模型微调、检索增强生成(RAG)、模型性能评估等场景。

最新动态

🎉🎉 Easy Dataset 1.7.0 版本推出全新的评估功能!您可以轻松将领域文档转换为评估数据集(测试集)并自动运行多维度评估任务。此外,还内置人工盲测系统,助您轻松满足垂直领域模型评估、微调后模型性能检测、RAG 召回率评估等需求。教程:[***]

功能特性

📄 文档处理与数据生成

  • 智能文档处理:支持 PDF、Markdown、DOCX、TXT、EPUB 等多种格式,具备智能识别能力
  • 智能文本分割:多种分割算法(Markdown 结构、递归分隔符、固定长度、代码感知分块),支持可视化自定义分割
  • 智能问题生成:从文本片段自动提取相关问题,支持问题模板与批量生成
  • 领域标签树:基于文档结构智能构建全局领域标签树,具备自动标记能力
  • 答案生成:利用 LLM API 生成全面答案与思维链(Chain of Thought, COT),支持 AI 优化
  • 数据清洗:智能文本清洗,去除噪声,提升数据质量

🔄 多种数据集类型

  • 单轮问答数据集:标准问答对,适用于基础微调
  • 多轮对话数据集:可自定义角色与场景,支持对话格式
  • 图像问答数据集:从图像生成视觉问答数据,支持多种导入方式(目录、PDF、ZIP)
  • 数据蒸馏:无需上传文档,直接从领域主题生成标签树与问题

📊 模型评估系统

  • 评估数据集:生成判断题、单选题、多选题、简答题、开放题等多种题型
  • 自动化模型评估:使用 Judge Model 自动评估模型答案质量,支持自定义评分规则
  • 人工盲测(Arena):双盲对比两个模型的答案,实现无偏评估
  • AI 质量评估:对生成的数据集进行自动质量评分与筛选

🛠️ 高级功能

  • 自定义提示词:项目级自定义所有提示词模板(问题生成、答案生成、数据清洗等)
  • GA 对生成:生成 Genre-Audience 对,丰富数据多样性
  • 任务管理中心:后台批量任务处理,支持监控与中断
  • 资源监控面板:Token 消耗统计、API 调用追踪、模型性能分析
  • 模型测试 playground:同时对比最多 3 个模型

📤 导出与集成

  • 多种导出格式:Alpaca、ShareGPT、Multilingual-Thinking 格式,支持 JSON/JSONL 文件类型
  • 均衡导出:配置每个标签的导出数量,实现数据集均衡
  • LLaMA Factory 集成:一键生成 LLaMA Factory 配置文件
  • Hugging Face 上传:直接将数据集上传至 Hugging Face Hub

🤖 模型支持

  • 广泛的模型兼容性:兼容所有遵循 OpenAI 格式的 LLM API
  • 多提供商支持:OpenAI、MiniMax、Ollama(本地模型)、智谱 AI、阿里百灵、OpenRouter 等
  • 视觉模型:支持 Gemini、Claude 等用于 PDF 解析与图像问答

🌐 用户体验

  • 友好界面:现代化、直观的 UI,兼顾技术与非技术用户
  • 多语言支持:完整支持中文、英文、土耳其语和葡萄牙语 🇹🇷
  • 数据集广场:发现和探索公共数据集资源
  • 桌面客户端:支持 Windows、macOS 和 Linux

快速演示

本地运行

下载客户端

Windows

MacOS

Linux

Setup.exe

Intel

M

AppImage

使用 NPM 安装

  1. 克隆仓库:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. 安装依赖:
npm install
  1. 启动开发服务器:
npm run build

npm run start
  1. 打开浏览器,访问 http://localhost:1717

使用官方 Docker 镜像

  1. 克隆仓库:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. 修改 docker-compose.yml 文件:
services:
easy-dataset:
image: ghcr.io/conardli/easy-dataset
container_name: easy-dataset
ports:
- '1717:1717'
volumes:
- ./local-db:/app/local-db
- ./prisma:/app/prisma
restart: unless-stopped

[!NOTE] 建议使用当前代码仓库目录下的 local-db 和 prisma 文件夹作为挂载路径,以保持与通过 NPM 启动时的数据库路径一致。

[!NOTE] 首次启动时会自动初始化数据库文件,无需手动运行 npm run db:push。

  1. 使用 docker-compose 启动:
docker-compose up -d
  1. 打开浏览器,访问 http://localhost:1717

使用本地 Dockerfile 构建

如果您想自行构建镜像,请使用项目根目录下的 Dockerfile:

  1. 克隆仓库:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. 构建 Docker 镜像:
docker build -t easy-dataset .
  1. 运行容器:
docker run -d \
-p 1717:1717 \
-v ./local-db:/app/local-db \
-v ./prisma:/app/prisma \
--name easy-dataset \
easy-dataset

[!NOTE] 建议使用当前代码仓库目录下的 local-db 和 prisma 文件夹作为挂载路径,以保持与通过 NPM 启动时的数据库路径一致。

[!NOTE] 首次启动时会自动初始化数据库文件,无需手动运行 npm run db:push。

  1. 打开浏览器,访问 http://localhost:1717

文档

  • 查看本项目演示视频:Easy Dataset 演示视频
  • 有关所有功能和 API 的详细文档,请访问我们的 文档网站
  • 查看本项目论文:Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents

社区实践

  • 使用 Easy Dataset 完成测试集生成与模型评估
  • Easy Dataset × LLaMA Factory:让大模型高效学习领域知识
  • Easy Dataset 实战指南:如何构建高质量数据集?
  • Easy Dataset 关键功能更新解读
  • 基础模型微调数据集:基础知识普及

贡献指南

我们欢迎社区贡献!如果您想为 Easy Dataset 做贡献,请遵循以下步骤:

  1. Fork 本仓库
  2. 创建新分支(git checkout -b feature/amazing-feature)
  3. 进行修改
  4. 提交更改(git commit -m 'Add some amazing feature')
  5. 推送到分支(git push origin feature/amazing-feature)
  6. 打开 Pull Request(提交至 DEV 分支)

请确保适当更新测试,并遵循现有编码风格。

加入讨论群 & 联系作者

许可证

本项目采用 AGPL 3.0 许可证授权 - 详见 LICENSE 文件。

引用

如果本工作对您有帮助,请引用:

@misc{miao2025easydataset,
title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents},
author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang},
year={2025},
eprint={2507.04009},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2507.04009}
}

Star History

由 ConardLi 用心打造 • 关注我:微信公众号 | Bilibili | 掘金 | 知乎 | ***

轩辕镜像配置手册

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式

Docker 配置

登录仓库拉取

通过 Docker 登录认证访问私有仓库

专属域名拉取

无需登录使用专属域名

K8s Containerd

Kubernetes 集群配置 Containerd

K3s

K3s 轻量级 Kubernetes 镜像加速

Dev Containers

VS Code Dev Containers 配置

Podman

Podman 容器引擎配置

Singularity/Apptainer

HPC 科学计算容器配置

其他仓库配置

ghcr、Quay、nvcr 等镜像仓库

Harbor 镜像源配置

Harbor Proxy Repository 对接专属域名

Portainer 镜像源配置

Portainer Registries 加速拉取

Nexus 镜像源配置

Nexus3 Docker Proxy 内网缓存

系统配置

Linux

在 Linux 系统配置镜像服务

Windows/Mac

在 Docker Desktop 配置镜像

MacOS OrbStack

MacOS OrbStack 容器配置

Docker Compose

Docker Compose 项目配置

NAS 设备

群晖

Synology 群晖 NAS 配置

飞牛

飞牛 fnOS 系统配置镜像

绿联

绿联 NAS 系统配置镜像

威联通

QNAP 威联通 NAS 配置

极空间

极空间 NAS 系统配置服务

网络设备

爱快路由

爱快 iKuai 路由系统配置

宝塔面板

在宝塔面板一键配置镜像

需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单

镜像拉取常见问题

使用与功能问题

配置了专属域名后,docker search 为什么会报错?

docker search 限制

Docker Hub 上有的镜像,为什么在轩辕镜像网站搜不到?

站内搜不到镜像

机器不能直连外网时,怎么用 docker save / load 迁镜像?

离线 save/load

docker pull 拉插件报错(plugin v1+json)怎么办?

插件要用 plugin install

WSL 里 Docker 拉镜像特别慢,怎么排查和优化?

WSL 拉取慢

轩辕镜像安全吗?如何用 digest 校验镜像没被篡改?

安全与 digest

第一次用轩辕镜像拉 Docker 镜像,要怎么登录和配置?

新手拉取配置

轩辕镜像合规吗?轩辕镜像的合规是怎么做的?

镜像合规机制

轩辕镜像支持 docker push 上传本地镜像吗?

不支持 push

错误码与失败问题

docker pull 提示 manifest unknown 怎么办?

manifest unknown

docker pull 提示 no matching manifest 怎么办?

no matching manifest(架构)

镜像已拉取完成,却提示 invalid tar header 或 failed to register layer 怎么办?

invalid tar header(解压)

Docker pull 时 HTTPS / TLS 证书验证失败怎么办?

TLS 证书失败

Docker pull 时 DNS 解析超时或连不上仓库怎么办?

DNS 超时

docker 无法连接轩辕镜像域名怎么办?

域名连通性排查

Docker 拉取出现 410 Gone 怎么办?

410 Gone 排查

出现 402 或「流量用尽」提示怎么办?

402 与流量用尽

Docker 拉取提示 UNAUTHORIZED(401)怎么办?

401 认证失败

遇到 429 Too Many Requests(请求太频繁)怎么办?

429 限流

docker login 提示 Cannot autolaunch D-Bus,还算登录成功吗?

D-Bus 凭证提示

为什么会出现「单层超过 20GB」或 413,无法加速拉取?

413 与超大单层

账号 / 计费 / 权限

轩辕镜像免费版和专业版有什么区别?

免费版与专业版区别

轩辕镜像支持哪些 Docker 镜像仓库?

支持的镜像仓库

镜像拉取失败还会不会扣流量?

失败是否计费

麒麟 V10 / 统信 UOS 提示 KYSEC 权限不够怎么办?

KYSEC 拦截脚本

如何在轩辕镜像申请开具发票?

申请开票

怎么修改轩辕镜像的网站登录和仓库登录密码?

修改登录密码

如何注销轩辕镜像账户?要注意什么?

注销账户

配置与原理类

写了 registry-mirrors,为什么还是走官方或仍然报错?

mirrors 不生效

怎么用 docker tag 去掉镜像名里的轩辕域名前缀?

去掉域名前缀

如何拉取指定 CPU 架构的镜像(如 ARM64、AMD64)?

指定架构拉取

用轩辕镜像拉镜像时快时慢,常见原因有哪些?

拉取速度原因

为什么拉取镜像的 :latest 标签,拿到的往往不是「最新」镜像?

latest 与「最新」

查看全部问题→

用户好评

来自真实用户的反馈,见证轩辕镜像的优质服务

用户头像

oldzhang

运维工程师

Linux服务器

5

"Docker访问体验非常流畅,大镜像也能快速完成下载。"

轩辕镜像
镜像详情
...
ghcr.io/conardli/easy-dataset
博客Docker 镜像公告与技术博客
热门查看热门 Docker 镜像推荐
安装一键安装 Docker 并配置镜像源
镜像拉取问题咨询请 提交工单。官方公众号:源码跳动。官方技术交流群:51517718。轩辕镜像所有镜像均来源于原始仓库,本站不存储、不修改、不传播任何镜像内容。
镜像拉取问题咨询请提交工单。官方公众号:源码跳动。官方技术交流群:。轩辕镜像所有镜像均来源于原始仓库,本站不存储、不修改、不传播任何镜像内容。
商务合作:点击复制邮箱
©2024-2026 源码跳动
商务合作:点击复制邮箱Copyright © 2024-2026 杭州源码跳动科技有限公司. All rights reserved.