alleninstituteforai/olmocr Docker 镜像 - 轩辕镜像 | Docker 镜像高效稳定拉取服务

alleninstituteforai/olmocralleninstituteforai
用于将PDF、PNG、JPEG等基于图像的文档转换为干净、可读的纯文本(如Markdown)的工具包,支持公式、表格、手写内容及复杂格式,可自动移除页眉页脚并保持自然阅读顺序。
3 次收藏下载次数: 0状态:社区镜像维护者:alleninstituteforai仓库类型:镜像
概述
olmOCR Docker镜像包含olmOCR工具包,提供文档处理、OCR任务及文本识别的完整环境,所有依赖已预装。该工具主要用于将PDF和其他基于图像的文档格式转换为干净、可读的纯文本格式,支持多种复杂内容识别与格式保留。
在线演示:[***]
核心功能与特性
工具核心功能
- 将PDF、PNG、JPEG等基于图像的文档转换为干净的Markdown
- 支持公式、表格、手写内容及复杂格式识别
- 自动移除页眉和页脚
- 即使存在图表、多列布局和插图,仍能保持自然阅读顺序的文本转换
- 高效经济,每百万页转换成本低于200***
- 基于7B参数的视觉语言模型(VLM),需GPU支持
镜像特性
- 基于NVIDIA CUDA 11.8.0构建,支持cuDNN
- 内置Python 3.11环境,提供完整GPU加速
- 预装关键依赖:
gpu:支持GPU加速处理bench:用于基准测试的开发工具
使用场景
适用于需要将扫描版PDF、图像文档(如PNG、JPEG)转换为可编辑文本的场景,特别适合学术论文处理、文档数字化、数据提取等需保留公式、表格结构及复杂格式的任务。
使用方法
拉取镜像
bashdocker pull alleninstituteforai/olmocr:latest
带GPU支持运行
bashdocker run --gpus all -it alleninstituteforai/olmocr:latest
挂载本地目录
将本地数据目录挂载到容器中,便于处理本地文档:
bashdocker run --gpus all -v /path/to/your/data:/data -it alleninstituteforai/olmocr:latest
运行特定命令
在容器内执行特定的olmOCR模块命令:
bashdocker run --gpus all -it alleninstituteforai/olmocr:latest python -m olmocr.any_module
包信息
该镜像包含olmOCR工具包,需Python 3.11或更高版本,集成了文档处理、PDF解析、图像操作及机器学习任务所需的全部依赖。
源代码
olmOCR源代码托管于GitHub:[***]
许可证
Apache License 2.0
镜像拉取常见问题
使用与功能问题
错误码与失败问题
manifest unknown 错误:镜像不存在或标签错误
manifest unknown 错误
TLS/SSL 证书验证失败:Docker pull 时 HTTPS 证书错误
TLS 证书验证失败
DNS 解析超时:无法解析镜像仓库地址或连接超时
DNS 解析超时
410 Gone 错误:Docker 版本过低导致协议不兼容
410 错误:版本过低
402 Payment Required 错误:流量耗尽错误提示
402 错误:流量耗尽
401 UNAUTHORIZED 错误:身份认证失败或登录信息错误
身份认证失败错误
429 Too Many Requests 错误:请求频率超出专业版限制
429 限流错误
Docker login 凭证保存错误:Cannot autolaunch D-Bus(不影响登录)
凭证保存错误
账号 / 计费 / 权限
用户好评
来自真实用户的反馈,见证轩辕镜像的优质服务