
jbarlow83/ocrmypdfOCRmyPDF是一款命令行工具,用于为扫描PDF文件添加OCR文本层,使其可搜索或复制粘贴。通过Docker镜像使用可避免依赖安装复杂问题,直接运行即可处理文档,生成符合PDF/A标准的可检索PDF文件。
通过挂载本地目录到容器的/data目录,处理当前目录下的PDF文件:
bashdocker run --rm -v $(pwd):/data jbarlow83/ocrmypdf input_scanned.pdf output_searchable.pdf
同时识别英语和法语:
bashdocker run --rm -v $(pwd):/data jbarlow83/ocrmypdf -l eng+fra input.pdf output.pdf
校正歪斜页面、修复旋转方向并设置标题:
bashdocker run --rm -v $(pwd):/data jbarlow83/ocrmypdf --deskew --rotate-pages --title "会议记录" input.pdf output.pdf
指定输出为PDF/A,使用4个并行任务:
bashdocker run --rm -v $(pwd):/data jbarlow83/ocrmypdf --output-type pdfa --jobs 4 input.pdf output.pdf
创建docker-compose.yml文件简化重复任务:
yamlversion: '3' services: ocrmypdf: image: jbarlow83/ocrmypdf volumes: - ./pdfs:/data command: --deskew --rotate-pages input.pdf output.pdf
运行:
bashdocker-compose run --rm ocrmypdf
OCRmyPDF依赖Tesseract OCR引擎的语言包,Docker镜像默认包含部分常用语言(如英语)。如需添加其他语言,可通过以下方式:
使用包含多语言包的镜像:检查镜像标签,部分标签可能预安装多语言包(如jbarlow83/ocrmypdf:latest-full)
自定义镜像:构建包含所需语言包的镜像,示例Dockerfile:
dockerfileFROM jbarlow83/ocrmypdf RUN apt-get update && apt-get install -y tesseract-ocr-chi-sim tesseract-ocr-jpn && rm -rf /var/lib/apt/lists/*
挂载语言文件:将本地Tesseract语言文件挂载到容器的/usr/share/tesseract-ocr/4.00/tessdata/目录
使用时通过-l参数指定语言,多语言用+分隔,如-l eng+chi-sim(英语+简体中文)。
查看命令行参数说明:
bashdocker run --rm jbarlow83/ocrmypdf --help
完整文档见Read the Docs
提交issue至GitHub Issues,并遵循模板提供详细信息。
--jobs N调整并行任务数(N为CPU核心数)--skip-validationOCRmyPDF软件采用Mozilla Public License 2.0 (MPL-2.0)许可。部分组件(如misc/目录下文件)使用MIT许可,文档和测试文件通常采用CC-BY-SA 4.0许可。
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务