alleninstituteforai/olmocr Docker 镜像 - 轩辕镜像 | Docker 镜像高效稳定拉取服务

olmocr
alleninstituteforai/olmocr
alleninstituteforai
用于将PDF、PNG、JPEG等基于图像的文档转换为干净、可读的纯文本(如Markdown)的工具包,支持公式、表格、手写内容及复杂格式,可自动移除页眉页脚并保持自然阅读顺序。
3 次收藏下载次数: 0状态:社区镜像维护者:alleninstituteforai仓库类型:镜像
概述

olmOCR Docker镜像包含olmOCR工具包,提供文档处理、OCR任务及文本识别的完整环境,所有依赖已预装。该工具主要用于将PDF和其他基于图像的文档格式转换为干净、可读的纯文本格式,支持多种复杂内容识别与格式保留。

在线演示:[***]

核心功能与特性
工具核心功能
  • 将PDF、PNG、JPEG等基于图像的文档转换为干净的Markdown
  • 支持公式、表格、手写内容及复杂格式识别
  • 自动移除页眉和页脚
  • 即使存在图表、多列布局和插图,仍能保持自然阅读顺序的文本转换
  • 高效经济,每百万页转换成本低于200***
  • 基于7B参数的视觉语言模型(VLM),需GPU支持
镜像特性
  • 基于NVIDIA CUDA 11.8.0构建,支持cuDNN
  • 内置Python 3.11环境,提供完整GPU加速
  • 预装关键依赖:
    • gpu:支持GPU加速处理
    • bench:用于基准测试的开发工具
使用场景

适用于需要将扫描版PDF、图像文档(如PNG、JPEG)转换为可编辑文本的场景,特别适合学术论文处理、文档数字化、数据提取等需保留公式、表格结构及复杂格式的任务。

使用方法
拉取镜像
bash
docker pull alleninstituteforai/olmocr:latest
带GPU支持运行
bash
docker run --gpus all -it alleninstituteforai/olmocr:latest
挂载本地目录

将本地数据目录挂载到容器中,便于处理本地文档:

bash
docker run --gpus all -v /path/to/your/data:/data -it alleninstituteforai/olmocr:latest
运行特定命令

在容器内执行特定的olmOCR模块命令:

bash
docker run --gpus all -it alleninstituteforai/olmocr:latest python -m olmocr.any_module
包信息

该镜像包含olmOCR工具包,需Python 3.11或更高版本,集成了文档处理、PDF解析、图像操作及机器学习任务所需的全部依赖。

源代码

olmOCR源代码托管于GitHub:[***]

许可证

Apache License 2.0

镜像拉取常见问题

用户好评

来自真实用户的反馈,见证轩辕镜像的优质服务

用户头像

oldzhang

运维工程师

Linux服务器

5

"Docker访问体验非常流畅,大镜像也能快速完成下载。"

镜像拉取问题咨询请 提交工单,官方技术交流群:1072982923
轩辕镜像面向开发者与科研用户,提供开源镜像的搜索和访问支持。所有镜像均来源于原始仓库,本站不存储、不修改、不传播任何镜像内容。