ghcr.io/conardli/easy-dataset:1.7.3 Docker 镜像

ghcr.iolinux/amd641.7.3大小: 406.56 MB更新于 2026年6月21日

让 AI 帮你使用轩辕镜像？ · 展开查看说明 · 点击收起说明

如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具，协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题，请先让 AI 阅读并遵守轩辕镜像的规则文档。

只需在 AI 对话中先发送下面这句话即可：

请先完整阅读并严格遵守以下文档中的全部规则与要求：

https://xuanyuan.cloud/agents.md

在未充分阅读并理解该文档前，不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。

查看 agents.md 用法指南与完整示范。国内用户首推元宝 AI、DeepSeek 的深度思考模式，不推荐豆包 AI；Cursor 等编辑器可在对话 @ 该链接，或加入 User Rules。若 AI 无法访问外链，可打开说明文档复制全文粘贴。文档会随站点更新，复制内容可能过期，建议定期检查。

一款强大的大型语言模型微调数据集创建工具

简体中文 | English | Türkçe

功能特性 • 快速开始 • 文档 • 贡献指南 • 许可证

如果您喜欢这个项目，请给它一个 Star⭐️，或请作者喝杯咖啡 => *** ❤️！

概述

Easy Dataset 是一款专为构建大型语言模型（LLM）数据集设计的应用。它具备直观界面，内置强大的文档解析工具、智能分段算法、数据清洗与增强功能。该应用可将多种格式的领域文档转换为高质量结构化数据集，适用于模型微调、检索增强生成（RAG）、模型性能评估等场景。

功能特性

📄 文档处理与数据生成

智能文档处理：支持 PDF、Markdown、DOCX、TXT、EPUB 等多种格式，具备智能识别能力
智能文本分割：多种分割算法（Markdown 结构、递归分隔符、固定长度、代码感知分块），支持可视化自定义分割
智能问题生成：从文本片段自动提取相关问题，支持问题模板与批量生成
领域标签树：基于文档结构智能构建全局领域标签树，具备自动标记能力
答案生成：利用 LLM API 生成全面答案与思维链（Chain of Thought, COT），支持 AI 优化
数据清洗：智能文本清洗，去除噪声，提升数据质量

🔄 多种数据集类型

单轮问答数据集：标准问答对，适用于基础微调
多轮对话数据集：可自定义角色与场景，支持对话格式
图像问答数据集：从图像生成视觉问答数据，支持多种导入方式（目录、PDF、ZIP）
数据蒸馏：无需上传文档，直接从领域主题生成标签树与问题

📊 模型评估系统

评估数据集：生成判断题、单选题、多选题、简答题、开放题等多种题型
自动化模型评估：使用 Judge Model 自动评估模型答案质量，支持自定义评分规则
人工盲测（Arena）：双盲对比两个模型的答案，实现无偏评估
AI 质量评估：对生成的数据集进行自动质量评分与筛选

🛠️ 高级功能

自定义提示词：项目级自定义所有提示词模板（问题生成、答案生成、数据清洗等）
GA 对生成：生成 Genre-Audience 对，丰富数据多样性
任务管理中心：后台批量任务处理，支持监控与中断
资源监控面板：Token 消耗统计、API 调用追踪、模型性能分析
模型测试 playground：同时对比最多 3 个模型

📤 导出与集成

多种导出格式：Alpaca、ShareGPT、Multilingual-Thinking 格式，支持 JSON/JSONL 文件类型
均衡导出：配置每个标签的导出数量，实现数据集均衡
LLaMA Factory 集成：一键生成 LLaMA Factory 配置文件
Hugging Face 上传：直接将数据集上传至 Hugging Face Hub

🤖 模型支持

广泛的模型兼容性：兼容所有遵循 OpenAI 格式的 LLM API
多提供商支持：OpenAI、MiniMax、Ollama（本地模型）、智谱 AI、阿里百灵、OpenRouter 等
视觉模型：支持 Gemini、Claude 等用于 PDF 解析与图像问答

🌐 用户体验

友好界面：现代化、直观的 UI，兼顾技术与非技术用户
多语言支持：完整支持中文、英文、土耳其语和葡萄牙语 🇹🇷
数据集广场：发现和探索公共数据集资源
桌面客户端：支持 Windows、macOS 和 Linux

快速演示

本地运行

下载客户端

Windows

MacOS

Linux

Setup.exe

Intel

AppImage

使用 NPM 安装

克隆仓库：

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

安装依赖：

npm install

启动开发服务器：

npm run build

npm run start

打开浏览器，访问 http://localhost:1717

使用官方 Docker 镜像

克隆仓库：

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

修改 docker-compose.yml 文件：

services:
easy-dataset:
image: ghcr.io/conardli/easy-dataset
container_name: easy-dataset
ports:
- '1717:1717'
volumes:
- ./local-db:/app/local-db
- ./prisma:/app/prisma
restart: unless-stopped

[!NOTE] 建议使用当前代码仓库目录下的 local-db 和 prisma 文件夹作为挂载路径，以保持与通过 NPM 启动时的数据库路径一致。

[!NOTE] 首次启动时会自动初始化数据库文件，无需手动运行 npm run db:push。

使用 docker-compose 启动：

docker-compose up -d

打开浏览器，访问 http://localhost:1717

使用本地 Dockerfile 构建

如果您想自行构建镜像，请使用项目根目录下的 Dockerfile：

克隆仓库：

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

构建 Docker 镜像：

docker build -t easy-dataset .

运行容器：

docker run -d \
-p 1717:1717 \
-v ./local-db:/app/local-db \
-v ./prisma:/app/prisma \
--name easy-dataset \
easy-dataset

[!NOTE] 建议使用当前代码仓库目录下的 local-db 和 prisma 文件夹作为挂载路径，以保持与通过 NPM 启动时的数据库路径一致。

[!NOTE] 首次启动时会自动初始化数据库文件，无需手动运行 npm run db:push。

打开浏览器，访问 http://localhost:1717

文档

查看本项目演示视频：Easy Dataset 演示视频
有关所有功能和 API 的详细文档，请访问我们的文档网站
查看本项目论文：Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents

社区实践

使用 Easy Dataset 完成测试集生成与模型评估
Easy Dataset × LLaMA Factory：让大模型高效学习领域知识
Easy Dataset 实战指南：如何构建高质量数据集？
Easy Dataset 关键功能更新解读
基础模型微调数据集：基础知识普及

贡献指南

我们欢迎社区贡献！如果您想为 Easy Dataset 做贡献，请遵循以下步骤：

Fork 本仓库
创建新分支（git checkout -b feature/amazing-feature）
进行修改
提交更改（git commit -m 'Add some amazing feature'）
推送到分支（git push origin feature/amazing-feature）
打开 Pull Request（提交至 DEV 分支）

请确保适当更新测试，并遵循现有编码风格。

加入讨论群 & 联系作者

许可证

本项目采用 AGPL 3.0 许可证授权 - 详见 LICENSE 文件。

引用

如果本工作对您有帮助，请引用：

@misc{miao2025easydataset,
title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents},
author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang},
year={2025},
eprint={2507.04009},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2507.04009}
}

Star History

由 ConardLi 用心打造 • 关注我：微信公众号｜ Bilibili ｜掘金｜知乎｜ ***

轩辕镜像配置手册

按平台快速找到配置文档

Docker

登录仓库拉取

登录认证 · 私有仓库

专属域名拉取

免登录 · 高速拉取

Linux

Docker 镜像配置

Windows / Mac

Docker Desktop 配置

MacOS OrbStack

OrbStack 容器

Docker Compose

Compose 项目配置

NAS

群晖

Synology 配置

飞牛

fnOS 镜像配置

绿联

绿联 NAS

威联通

QNAP 配置

极空间

极空间 NAS

企业仓库

其他仓库

ghcr · Quay · nvcr

Harbor 镜像源

Proxy Repository 对接

Portainer 镜像源

Registries 配置

Nexus 镜像源

Docker Proxy 缓存

开发工具

Dev Containers

VS Code 开发容器

Podman

Podman 配置指南

Singularity / Apptainer

HPC 科学计算容器

Kubernetes

K8s Containerd

Kubernetes · Containerd

K3s

轻量级集群

面板 / 网络

爱快路由

iKuai 镜像加速

宝塔面板

一键配置镜像源

AI

用 AI 使用轩辕镜像

agents.md · AI 对话 · 提示词

一键安装

一键安装 Docker

Linux Docker 一键安装

需要其他帮助？请查看我们的常见问题Docker 镜像访问常见问题解答或提交工单

镜像拉取常见问题

功能

免费版与专业版区别

功能对比 · 版本选择

支持的镜像仓库

Docker Hub · GCR · GHCR

新手拉取配置

docker search 限制

专属域名 · Hub 搜索

不支持 push

仅支持 pull · 不支持

拉取速度原因

带宽 · 缓存 · 冷热镜像

错误码

402 与流量用尽

402 · 流量包 · 充值

401 认证失败

401 · docker login

manifest unknown

标签错误 · 镜像不存在

410 Gone 排查

410 · Docker 升级

429 限流

免费版 · 请求频率

其他报错

DNS 超时

DNS 解析 · 网络超时

TLS 证书失败

no matching manifest（架构）

账号

失败是否计费

manifest · blob · 计费

申请开发票（企业 / 个人）

企业 · 个人 · 工单

修改登录密码

网站 · 仓库 · 重置

注销账户

工单 · 数据 · 注销

原理

mirrors 不生效

daemon.json · 重启

去掉域名前缀

docker tag · 重命名

指定架构拉取

ARM64 · AMD64 · 多架构

latest 与「最新」

digest · 版本号 · 标签

查看全部问题→

用户好评

来自真实用户的反馈，见证轩辕镜像的优质服务

oldzhang

运维工程师

Linux服务器

"Docker访问体验非常流畅，大镜像也能快速完成下载。"

ghcr.io/conardli/easy-dataset:1.7.3

一款强大的大型语言模型微调数据集创建工具

概述

最新动态

功能特性

📄 文档处理与数据生成

🔄 多种数据集类型

📊 模型评估系统

🛠️ 高级功能

📤 导出与集成

🤖 模型支持

🌐 用户体验

快速演示

本地运行

下载客户端

使用 NPM 安装

使用官方 Docker 镜像

使用本地 Dockerfile 构建

文档

社区实践

贡献指南

加入讨论群 & 联系作者

许可证

引用

Star History

轩辕镜像配置手册

Docker

登录仓库拉取

专属域名拉取

Linux

Windows / Mac

MacOS OrbStack

Docker Compose

NAS

群晖

飞牛

绿联

威联通

极空间

企业仓库

其他仓库

Harbor 镜像源

Portainer 镜像源

Nexus 镜像源

开发工具

Dev Containers

Podman

Singularity / Apptainer

Kubernetes

K8s Containerd

K3s

面板 / 网络

爱快路由

宝塔面板

AI

用 AI 使用轩辕镜像

一键安装

一键安装 Docker

镜像拉取常见问题

功能

免费版与专业版区别

支持的镜像仓库

新手拉取配置

docker search 限制

不支持 push

拉取速度原因

错误码

402 与流量用尽

401 认证失败

manifest unknown

410 Gone 排查

429 限流

其他报错

DNS 超时

TLS 证书失败

no matching manifest（架构）

账号

失败是否计费

申请开发票（企业 / 个人）

修改登录密码