轩辕镜像
轩辕镜像专业版
个人中心搜索镜像
交易
充值流量我的订单
工具
工单支持镜像收录Run 助手IP 归属地密码生成Npm 源Pip 源
帮助
常见问题我要吐槽
其他
关于我们网站地图

官方QQ群: 13763429

轩辕镜像
镜像详情
jbarlow83/ocrmypdf
官方博客使用教程热门镜像工单支持
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。
所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。
轩辕镜像 - 国内开发者首选的专业 Docker 镜像下载加速服务平台 - 官方QQ群:13763429 👈点击免费获得技术支持。
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。

本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

ocrmypdf Docker 镜像下载 - 轩辕镜像

ocrmypdf 镜像详细信息和使用指南

ocrmypdf 镜像标签列表和版本信息

ocrmypdf 镜像拉取命令和加速下载

ocrmypdf 镜像使用说明和配置指南

Docker 镜像加速服务 - 轩辕镜像平台

国内开发者首选的 Docker 镜像加速平台

极速拉取 Docker 镜像服务

相关 Docker 镜像推荐

热门 Docker 镜像下载

ocrmypdf
jbarlow83/ocrmypdf
自动构建

ocrmypdf 镜像详细信息

ocrmypdf 镜像标签列表

ocrmypdf 镜像使用说明

ocrmypdf 镜像拉取命令

Docker 镜像加速服务

轩辕镜像平台优势

镜像下载指南

相关 Docker 镜像推荐

OCRmyPDF为扫描PDF文件添加OCR文本层,使其可搜索或复制粘贴,支持多语言识别、页面旋转校正、歪斜修复,默认生成符合PDF/A标准的文档,支持多核处理,优化图像大小。
66 收藏0 次下载activejbarlow83镜像
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源
中文简介版本下载
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

ocrmypdf 镜像详细说明

ocrmypdf 使用指南

ocrmypdf 配置说明

ocrmypdf 官方文档

OCRmyPDF Docker镜像文档

镜像概述

OCRmyPDF是一款命令行工具,用于为扫描PDF文件添加OCR文本层,使其可搜索或复制粘贴。通过Docker镜像使用可避免依赖安装复杂问题,直接运行即可处理文档,生成符合PDF/A标准的可检索PDF文件。

核心功能与特性

  • 生成可搜索PDF/A:将普通PDF转换为符合PDF/A标准的可检索文档,适合长期存档
  • 精准文本定位:OCR文本层精确置于图像下方,便于复制粘贴
  • 保持原始分辨率:不改变嵌入图像的原始分辨率
  • 无损操作:尽可能以无损方式插入OCR信息,不影响其他内容
  • 图像优化:通常生成比输入文件更小的输出文件
  • 页面校正:支持自动旋转错误方向的页面(--rotate-pages)和校正歪斜页面(--deskew)
  • 多核心支持:默认利用所有可用CPU核心并行处理
  • 多语言识别:基于Tesseract OCR引擎,支持100多种语言
  • 大规模处理:可稳定处理数千页的大型PDF文件
  • 输入输出验证:自动验证输入和输出文件的有效性

适用场景

  • 纸质文档数字化:将扫描的纸质文档转换为可搜索的电子文档
  • 学术与研究:处理扫描版论文、书籍,便于关键词检索
  • 办公文档管理:优化存档PDF,支持内容检索和复制
  • 多语言文档处理:处理包含多种语言的扫描PDF(如中英文混排文档)
  • 文档标准化:生成符合PDF/A标准的长期存档文档

使用方法

基本使用(Docker Run)

通过挂载本地目录到容器的/data目录,处理当前目录下的PDF文件:

docker run --rm -v $(pwd):/data jbarlow83/ocrmypdf input_scanned.pdf output_searchable.pdf

高级选项示例

多语言识别

同时识别英语和法语:

docker run --rm -v $(pwd):/data jbarlow83/ocrmypdf -l eng+fra input.pdf output.pdf

页面校正与优化

校正歪斜页面、修复旋转方向并设置标题:

docker run --rm -v $(pwd):/data jbarlow83/ocrmypdf --deskew --rotate-pages --title "会议记录" input.pdf output.pdf

自定义输出类型与并行任务

指定输出为PDF/A,使用4个并行任务:

docker run --rm -v $(pwd):/data jbarlow83/ocrmypdf --output-type pdfa --jobs 4 input.pdf output.pdf

Docker Compose配置(示例)

创建docker-compose.yml文件简化重复任务:

version: '3'
services:
  ocrmypdf:
    image: jbarlow83/ocrmypdf
    volumes:
      - ./pdfs:/data
    command: --deskew --rotate-pages input.pdf output.pdf

运行:

docker-compose run --rm ocrmypdf

语言支持

OCRmyPDF依赖Tesseract OCR引擎的语言包,Docker镜像默认包含部分常用语言(如英语)。如需添加其他语言,可通过以下方式:

  1. 使用包含多语言包的镜像:检查镜像标签,部分标签可能预安装多语言包(如jbarlow83/ocrmypdf:latest-full)

  2. 自定义镜像:构建包含所需语言包的镜像,示例Dockerfile:

    FROM jbarlow83/ocrmypdf
    RUN apt-get update && apt-get install -y tesseract-ocr-chi-sim tesseract-ocr-jpn && rm -rf /var/lib/apt/lists/*
    
  3. 挂载语言文件:将本地Tesseract语言文件挂载到容器的/usr/share/tesseract-ocr/4.00/tessdata/目录

使用时通过-l参数指定语言,多语言用+分隔,如-l eng+chi-sim(英语+简体中文)。

文档与支持

获取帮助

查看命令行参数说明:

docker run --rm jbarlow83/ocrmypdf --help

***文档

完整文档见Read the Docs

问题反馈

提交issue至GitHub Issues,并遵循模板提供详细信息。

注意事项

  • 文件权限:Docker挂载目录时需确保宿主目录有读写权限,避免权限错误
  • 性能优化:处理大型PDF时,可通过--jobs N调整并行任务数(N为CPU核心数)
  • 输出验证:默认启用输出文件验证,确保生成的PDF/A文档符合标准,如需禁用可使用--skip-validation

许可证

OCRmyPDF软件采用Mozilla Public License 2.0 (MPL-2.0)许可。部分组件(如misc/目录下文件)使用MIT许可,文档和测试文件通常采用CC-BY-SA 4.0许可。

查看更多 ocrmypdf 相关镜像 →

常见问题

轩辕镜像免费版与专业版有什么区别?

免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。

轩辕镜像免费版与专业版有分别支持哪些镜像?

免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。

流量耗尽错误提示

当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。

410 错误问题

通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。

manifest unknown 错误

先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。

镜像拉取成功后,如何去掉轩辕镜像域名前缀?

使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。

查看全部问题→

轩辕镜像下载加速使用手册

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式

🔐

登录方式进行 Docker 镜像下载加速教程

通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤

🐧

Linux Docker 镜像下载加速教程

在 Linux 系统上配置轩辕镜像源,支持主流发行版

🖥️

Windows/Mac Docker 镜像下载加速教程

在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统

📦

Docker Compose 镜像下载加速教程

在 Docker Compose 中使用轩辕镜像加速,支持容器编排

📋

K8s containerd 镜像下载加速教程

在 k8s 中配置 containerd 使用轩辕镜像加速

🔧

宝塔面板 Docker 镜像下载加速教程

在宝塔面板中配置轩辕镜像加速,提升服务器管理效率

💾

群晖 NAS Docker 镜像下载加速教程

在 Synology 群晖NAS系统中配置轩辕镜像加速

🐂

飞牛fnOS Docker 镜像下载加速教程

在飞牛fnOS系统中配置轩辕镜像加速

📱

极空间 NAS Docker 镜像下载加速教程

在极空间NAS中配置轩辕镜像加速

⚡

爱快路由 ikuai Docker 镜像下载加速教程

在爱快ikuai系统中配置轩辕镜像加速

🔗

绿联 NAS Docker 镜像下载加速教程

在绿联NAS系统中配置轩辕镜像加速

🌐

威联通 NAS Docker 镜像下载加速教程

在威联通NAS系统中配置轩辕镜像加速

📦

Podman Docker 镜像下载加速教程

在 Podman 中配置轩辕镜像加速,支持多系统

📚

ghcr、Quay、nvcr、k8s、gcr 等仓库下载镜像加速教程

配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤

🚀

专属域名方式进行 Docker 镜像下载加速教程

无需登录即可使用轩辕镜像加速服务,更加便捷高效

需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429

商务:17300950906
|©2024-2025 源码跳动
商务合作电话:17300950906|Copyright © 2024-2025 杭州源码跳动科技有限公司. All rights reserved.