
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
OCRmyPDF是一款命令行工具,用于为扫描PDF文件添加OCR文本层,使其可搜索或复制粘贴。通过Docker镜像使用可避免依赖安装复杂问题,直接运行即可处理文档,生成符合PDF/A标准的可检索PDF文件。
通过挂载本地目录到容器的/data目录,处理当前目录下的PDF文件:
bashdocker run --rm -v $(pwd):/data docker.xuanyuan.run/jbarlow83/ocrmypdf input_scanned.pdf output_searchable.pdf
多语言识别
同时识别英语和法语:
bashdocker run --rm -v $(pwd):/data docker.xuanyuan.run/jbarlow83/ocrmypdf -l eng+fra input.pdf output.pdf
页面校正与优化
校正歪斜页面、修复旋转方向并设置标题:
bashdocker run --rm -v $(pwd):/data docker.xuanyuan.run/jbarlow83/ocrmypdf --deskew --rotate-pages --title "会议记录" input.pdf output.pdf
自定义输出类型与并行任务
指定输出为PDF/A,使用4个并行任务:
bashdocker run --rm -v $(pwd):/data docker.xuanyuan.run/jbarlow83/ocrmypdf --output-type pdfa --jobs 4 input.pdf output.pdf
创建docker-compose.yml文件简化重复任务:
yamlversion: '3' services: ocrmypdf: image: docker.xuanyuan.run/jbarlow83/ocrmypdf volumes: - ./pdfs:/data command: --deskew --rotate-pages input.pdf output.pdf
运行:
bashdocker-compose run --rm ocrmypdf
OCRmyPDF依赖Tesseract OCR引擎的语言包,Docker镜像默认包含部分常用语言(如英语)。如需添加其他语言,可通过以下方式:
使用包含多语言包的镜像:检查镜像标签,部分标签可能预安装多语言包(如jbarlow83/ocrmypdf:latest-full)
自定义镜像:构建包含所需语言包的镜像,示例Dockerfile:
dockerfileFROM docker.xuanyuan.run/jbarlow83/ocrmypdf RUN apt-get update && apt-get install -y tesseract-ocr-chi-sim tesseract-ocr-jpn && rm -rf /var/lib/apt/lists/*
挂载语言文件:将本地Tesseract语言文件挂载到容器的/usr/share/tesseract-ocr/4.00/tessdata/目录
使用时通过-l参数指定语言,多语言用+分隔,如-l eng+chi-sim(英语+简体中文)。
查看命令行参数说明:
bashdocker run --rm docker.xuanyuan.run/jbarlow83/ocrmypdf --help
完整文档见https://ocrmypdf.readthedocs.io/zh_CN/latest/
提交issue至https://github.com/jbarlow83/OCRmyPDF/issues%EF%BC%8C%E5%B9%B6%E9%81%B5%E5%BE%AA%E6%A8%A1%E6%9D%BF%E6%8F%90%E4%BE%9B%E8%AF%A6%E7%BB%86%E4%BF%A1%E6%81%AF%E3%80%82
--jobs N调整并行任务数(N为CPU核心数)--skip-validationOCRmyPDF软件采用Mozilla Public License 2.0 (MPL-2.0)许可。部分组件(如misc/目录下文件)使用MIT许可,文档和测试文件通常采用CC-BY-SA 4.0许可。
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务