本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

本镜像基于***jbarlow83/ocrmypdf x86_64镜像构建,在保留原版OCRmyPDF核心功能的基础上,通过预装tesseract-ocr-all软件包,实现了对所有语言的PDF文件文字识别(OCR)与转换支持。可将扫描版PDF(图片PDF)转换为可搜索、可复制的文本层PDF,适用于多语言文档处理场景。
tesseract-ocr-all,支持Tesseract OCR引擎兼容的所有语言(包括中文、英文、日文、韩文、德文、法文等)通过docker run命令运行容器,挂载本地目录以访问待处理PDF文件:
docker run --rm -v /本地文件目录:/data [镜像名称] ocrmypdf [输入文件] [输出文件]
--rm:容器运行结束后自动删除,避免残留临时容器-v /本地文件目录:/data:将本地存放PDF文件的目录挂载到容器内的/data目录,实现文件共享[镜像名称]:实际使用的Docker镜像名称(需替换为具体镜像标签)ocrmypdf [输入文件] [输出文件]:OCRmyPDF核心命令,指定容器内/data目录下的输入PDF和输出PDF路径处理包含简体中文、英文和日文的扫描PDF:
docker run --rm -v /home/user/pdfs:/data my-ocr-image ocrmypdf --language chi_sim+eng+jpn input_scan.pdf output_ocr.pdf
--language chi_sim+eng+jpn:指定识别语言组合(chi_sim=简体中文,eng=英文,jpn=日文),可根据实际需求调整语言代码(完整语言代码列表见Tesseract***文档)可通过OCRmyPDF原生参数调整处理效果,如:
--dpi 300:设置扫描分辨率(默认300 DPI)--compress jpeg:指定图片压缩方式--output-type pdfa:输出PDF/A归档格式示例(生成高分辨率PDF/A格式的多语言文档):
docker run --rm -v /home/user/pdfs:/data my-ocr-image ocrmypdf --language chi_sim+eng --dpi 400 --output-type pdfa input.pdf output_archive.pdf
--memory参数限制容器内存使用/data目录,需通过挂载目录获取到本地系统免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤
在 Linux 系统上配置轩辕镜像源,支持主流发行版
在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统
在 Docker Compose 中使用轩辕镜像加速,支持容器编排
在 k8s 中配置 containerd 使用轩辕镜像加速
在宝塔面板中配置轩辕镜像加速,提升服务器管理效率
在 Synology 群晖NAS系统中配置轩辕镜像加速
在飞牛fnOS系统中配置轩辕镜像加速
在极空间NAS中配置轩辕镜像加速
在爱快ikuai系统中配置轩辕镜像加速
在绿联NAS系统中配置轩辕镜像加速
在威联通NAS系统中配置轩辕镜像加速
在 Podman 中配置轩辕镜像加速,支持多系统
配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤
无需登录即可使用轩辕镜像加速服务,更加便捷高效
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429