
github/mdtok本Docker镜像专注于Markdown文件的分词处理与内容清理,旨在为文档预处理、内容分析等场景提供高效、标准化的文本处理工具。通过自动化分词(将文本拆分为语义单元)和清理(去除冗余格式、修复语法等),帮助用户快速获得高质量的预处理文本数据。
通过挂载本地文件目录,指定输入文件和输出路径,执行分词+清理任务:
bashdocker run -v /本地输入目录:/input -v /本地输出目录:/output \ markdown-tokenizer-cleaner:latest \ --input /input/source.md \ # 容器内输入文件路径(需通过-v挂载) --output /output/processed.md \ # 容器内输出文件路径 --tokenize # 启用分词功能 --clean # 启用清理功能
说明:
/本地输入目录需包含待处理的Markdown文件(如source.md),处理结果将保存至/本地输出目录/processed.md。
对整个目录下的Markdown文件批量处理,保持原目录结构输出:
bashdocker run -v /本地输入目录:/input -v /本地输出目录:/output \ markdown-tokenizer-cleaner:latest \ --input-dir /input \ # 容器内输入目录(需挂载包含多个.md文件的本地目录) --output-dir /output \ # 容器内输出目录(处理后文件将按原结构保存至此) --tokenize --clean
通过挂载自定义分词规则文件(JSON格式),调整分词逻辑(如按行业术语拆分):
bashdocker run -v /本地输入目录:/input -v /本地输出目录:/output -v /自定义规则目录:/rules \ markdown-tokenizer-cleaner:latest \ --input /input/source.md \ --output /output/processed.md \ --tokenize --clean \ --token-rule /rules/custom_rule.json # 指定自定义分词规则文件(容器内路径)
规则文件格式示例(
custom_rule.json):json{ "split_on": ["。", "!", "?"], # 按中文句末标点分句 "ignore": ["[注释]", "(备注:.*)"] # 忽略注释内容 }
支持通过环境变量简化命令行参数(适用于脚本或自动化场景):
| 环境变量 | 说明 | 对应命令行参数 |
|---|---|---|
INPUT_PATH | 单文件处理时的输入文件路径 | --input |
OUTPUT_PATH | 单文件处理时的输出文件路径 | --output |
INPUT_DIR | 批量处理时的输入目录 | --input-dir |
OUTPUT_DIR | 批量处理时的输出目录 | --output-dir |
TOKEN_RULE_PATH | 自定义分词规则文件路径 | --token-rule |
示例(通过环境变量指定路径):
bashdocker run -v /本地输入:/input -v /本地输出:/output -v /规则目录:/rules \ -e INPUT_PATH=/input/source.md \ -e OUTPUT_PATH=/output/processed.md \ -e TOKEN_RULE_PATH=/rules/custom_rule.json \ markdown-tokenizer-cleaner:latest --tokenize --clean
[输出文件].tokens.json(如processed.md.tokens.json),包含分词单元、位置索引等信息。processed.md),保留核心内容与规范格式。-v挂载至容器内,否则容器无法访问本地文件。





manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务