本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

本Docker镜像专注于Markdown文件的分词处理与内容清理,旨在为文档预处理、内容分析等场景提供高效、标准化的文本处理工具。通过自动化分词(将文本拆分为语义单元)和清理(去除冗余格式、修复语法等),帮助用户快速获得高质量的预处理文本数据。
通过挂载本地文件目录,指定输入文件和输出路径,执行分词+清理任务:
docker run -v /本地输入目录:/input -v /本地输出目录:/output \ markdown-tokenizer-cleaner:latest \ --input /input/source.md \ # 容器内输入文件路径(需通过-v挂载) --output /output/processed.md \ # 容器内输出文件路径 --tokenize # 启用分词功能 --clean # 启用清理功能
说明:
/本地输入目录需包含待处理的Markdown文件(如source.md),处理结果将保存至/本地输出目录/processed.md。
对整个目录下的Markdown文件批量处理,保持原目录结构输出:
docker run -v /本地输入目录:/input -v /本地输出目录:/output \ markdown-tokenizer-cleaner:latest \ --input-dir /input \ # 容器内输入目录(需挂载包含多个.md文件的本地目录) --output-dir /output \ # 容器内输出目录(处理后文件将按原结构保存至此) --tokenize --clean
通过挂载自定义分词规则文件(JSON格式),调整分词逻辑(如按行业术语拆分):
docker run -v /本地输入目录:/input -v /本地输出目录:/output -v /自定义规则目录:/rules \ markdown-tokenizer-cleaner:latest \ --input /input/source.md \ --output /output/processed.md \ --tokenize --clean \ --token-rule /rules/custom_rule.json # 指定自定义分词规则文件(容器内路径)
规则文件格式示例(
custom_rule.json):{ "split_on": ["。", "!", "?"], # 按中文句末标点分句 "ignore": ["[注释]", "(备注:.*)"] # 忽略注释内容 }
支持通过环境变量简化命令行参数(适用于脚本或自动化场景):
| 环境变量 | 说明 | 对应命令行参数 |
|---|---|---|
INPUT_PATH | 单文件处理时的输入文件路径 | --input |
OUTPUT_PATH | 单文件处理时的输出文件路径 | --output |
INPUT_DIR | 批量处理时的输入目录 | --input-dir |
OUTPUT_DIR | 批量处理时的输出目录 | --output-dir |
TOKEN_RULE_PATH | 自定义分词规则文件路径 | --token-rule |
示例(通过环境变量指定路径):
docker run -v /本地输入:/input -v /本地输出:/output -v /规则目录:/rules \ -e INPUT_PATH=/input/source.md \ -e OUTPUT_PATH=/output/processed.md \ -e TOKEN_RULE_PATH=/rules/custom_rule.json \ markdown-tokenizer-cleaner:latest --tokenize --clean
[输出文件].tokens.json(如processed.md.tokens.json),包含分词单元、位置索引等信息。processed.md),保留核心内容与规范格式。-v挂载至容器内,否则容器无法访问本地文件。免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤
在 Linux 系统上配置轩辕镜像源,支持主流发行版
在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统
在 Docker Compose 中使用轩辕镜像加速,支持容器编排
在 k8s 中配置 containerd 使用轩辕镜像加速
在宝塔面板中配置轩辕镜像加速,提升服务器管理效率
在 Synology 群晖NAS系统中配置轩辕镜像加速
在飞牛fnOS系统中配置轩辕镜像加速
在极空间NAS中配置轩辕镜像加速
在爱快ikuai系统中配置轩辕镜像加速
在绿联NAS系统中配置轩辕镜像加速
在威联通NAS系统中配置轩辕镜像加速
在 Podman 中配置轩辕镜像加速,支持多系统
配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤
无需登录即可使用轩辕镜像加速服务,更加便捷高效
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429