本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

OCRmyPDF是一款命令行工具,用于为扫描PDF文件添加OCR文本层,使其可搜索或复制粘贴。通过Docker镜像使用可避免依赖安装复杂问题,直接运行即可处理文档,生成符合PDF/A标准的可检索PDF文件。
通过挂载本地目录到容器的/data目录,处理当前目录下的PDF文件:
docker run --rm -v $(pwd):/data jbarlow83/ocrmypdf input_scanned.pdf output_searchable.pdf
同时识别英语和法语:
docker run --rm -v $(pwd):/data jbarlow83/ocrmypdf -l eng+fra input.pdf output.pdf
校正歪斜页面、修复旋转方向并设置标题:
docker run --rm -v $(pwd):/data jbarlow83/ocrmypdf --deskew --rotate-pages --title "会议记录" input.pdf output.pdf
指定输出为PDF/A,使用4个并行任务:
docker run --rm -v $(pwd):/data jbarlow83/ocrmypdf --output-type pdfa --jobs 4 input.pdf output.pdf
创建docker-compose.yml文件简化重复任务:
version: '3' services: ocrmypdf: image: jbarlow83/ocrmypdf volumes: - ./pdfs:/data command: --deskew --rotate-pages input.pdf output.pdf
运行:
docker-compose run --rm ocrmypdf
OCRmyPDF依赖Tesseract OCR引擎的语言包,Docker镜像默认包含部分常用语言(如英语)。如需添加其他语言,可通过以下方式:
使用包含多语言包的镜像:检查镜像标签,部分标签可能预安装多语言包(如jbarlow83/ocrmypdf:latest-full)
自定义镜像:构建包含所需语言包的镜像,示例Dockerfile:
FROM jbarlow83/ocrmypdf RUN apt-get update && apt-get install -y tesseract-ocr-chi-sim tesseract-ocr-jpn && rm -rf /var/lib/apt/lists/*
挂载语言文件:将本地Tesseract语言文件挂载到容器的/usr/share/tesseract-ocr/4.00/tessdata/目录
使用时通过-l参数指定语言,多语言用+分隔,如-l eng+chi-sim(英语+简体中文)。
查看命令行参数说明:
docker run --rm jbarlow83/ocrmypdf --help
完整文档见Read the Docs
提交issue至GitHub Issues,并遵循模板提供详细信息。
--jobs N调整并行任务数(N为CPU核心数)--skip-validationOCRmyPDF软件采用Mozilla Public License 2.0 (MPL-2.0)许可。部分组件(如misc/目录下文件)使用MIT许可,文档和测试文件通常采用CC-BY-SA 4.0许可。
免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤
在 Linux 系统上配置轩辕镜像源,支持主流发行版
在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统
在 Docker Compose 中使用轩辕镜像加速,支持容器编排
在 k8s 中配置 containerd 使用轩辕镜像加速
在宝塔面板中配置轩辕镜像加速,提升服务器管理效率
在 Synology 群晖NAS系统中配置轩辕镜像加速
在飞牛fnOS系统中配置轩辕镜像加速
在极空间NAS中配置轩辕镜像加速
在爱快ikuai系统中配置轩辕镜像加速
在绿联NAS系统中配置轩辕镜像加速
在威联通NAS系统中配置轩辕镜像加速
在 Podman 中配置轩辕镜像加速,支持多系统
配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤
无需登录即可使用轩辕镜像加速服务,更加便捷高效
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429