
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
本Docker镜像专注于Markdown文件的分词处理与内容清理,旨在为文档预处理、内容分析等场景提供高效、标准化的文本处理工具。通过自动化分词(将文本拆分为语义单元)和清理(去除冗余格式、修复语法等),帮助用户快速获得高质量的预处理文本数据。
通过挂载本地文件目录,指定输入文件和输出路径,执行分词+清理任务:
bashdocker run -v /本地输入目录:/input -v /本地输出目录:/output \ markdown-tokenizer-cleaner:latest \ --input /input/source.md \ # 容器内输入文件路径(需通过-v挂载) --output /output/processed.md \ # 容器内输出文件路径 --tokenize # 启用分词功能 --clean # 启用清理功能
说明:
/本地输入目录需包含待处理的Markdown文件(如source.md),处理结果将保存至/本地输出目录/processed.md。
对整个目录下的Markdown文件批量处理,保持原目录结构输出:
bashdocker run -v /本地输入目录:/input -v /本地输出目录:/output \ markdown-tokenizer-cleaner:latest \ --input-dir /input \ # 容器内输入目录(需挂载包含多个.md文件的本地目录) --output-dir /output \ # 容器内输出目录(处理后文件将按原结构保存至此) --tokenize --clean
1. 分词规则自定义
通过挂载自定义分词规则文件(JSON格式),调整分词逻辑(如按行业术语拆分):
bashdocker run -v /本地输入目录:/input -v /本地输出目录:/output -v /自定义规则目录:/rules \ markdown-tokenizer-cleaner:latest \ --input /input/source.md \ --output /output/processed.md \ --tokenize --clean \ --token-rule /rules/custom_rule.json # 指定自定义分词规则文件(容器内路径)
规则文件格式示例(
custom_rule.json):json{ "split_on": ["。", "!", "?"], # 按中文句末标点分句 "ignore": ["[注释]", "(备注:.*)"] # 忽略注释内容 }
2. 环境变量配置
支持通过环境变量简化命令行参数(适用于脚本或自动化场景):
| 环境变量 | 说明 | 对应命令行参数 |
|---|---|---|
INPUT_PATH | 单文件处理时的输入文件路径 | --input |
OUTPUT_PATH | 单文件处理时的输出文件路径 | --output |
INPUT_DIR | 批量处理时的输入目录 | --input-dir |
OUTPUT_DIR | 批量处理时的输出目录 | --output-dir |
TOKEN_RULE_PATH | 自定义分词规则文件路径 | --token-rule |
示例(通过环境变量指定路径):
bashdocker run -v /本地输入:/input -v /本地输出:/output -v /规则目录:/rules \ -e INPUT_PATH=/input/source.md \ -e OUTPUT_PATH=/output/processed.md \ -e TOKEN_RULE_PATH=/rules/custom_rule.json \ markdown-tokenizer-cleaner:latest --tokenize --clean
[输出文件].tokens.json(如processed.md.tokens.json),包含分词单元、位置索引等信息。processed.md),保留核心内容与规范格式。-v挂载至容器内,否则容器无法访问本地文件。您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务