!https://raw.githubusercontent.com/adithya-s-k/omniparse/main/docs/assets/hero_image.png
OmniParse是一个数据解析平台,可将任何非结构化数据提取/解析为结构化、可操作的数据,优化用于GenAI(大语言模型)应用。无论是处理文档、表格、图像、视频、音频文件还是网页,OmniParse都能将数据处理为干净、结构化的格式,为RAG、微调等AI应用做好准备。
,并输出结构化、可操作且对GenAI(大语言模型)友好的结果。
注意:服务器仅在基于Linux的系统上运行。这是由于某些依赖项和系统特定配置与Windows或macOS不兼容。
使用Docker运行OmniParse,请执行以下命令:
bashdocker pull savatar101/omniparse:0.1 # 若使用GPU docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # 若使用CPU docker run -p 8000:8000 savatar101/omniparse:0.1
或者,若倾向于本地构建Docker镜像:
bashdocker build -t omniparse . # 若使用GPU docker run --gpus all -p 8000:8000 omniparse # 若使用CPU docker run -p 8000:8000 omniparse
bashpython server.py --host 0.0.0.0 --port 8000 --documents --media --web
参数说明:
--documents: 加载用于解析文档的所有模型(Surya OCR系列模型和Florence-2)--media: 加载Whisper模型以转录音频和视频文件--web: 设置selenium爬虫bashpython main.py --host 0.0.0.0 --port 8000
参数:
--host: 主机IP地址(默认:0.0.0.0)--port: 端口号(默认:8000)| 类型 | 支持的扩展名 |
|---|---|
| 文档 | .doc, .docx, .odt, .pdf, .ppt, .pptx |
| 图像 | .png, .jpg, .jpeg, .tiff, .bmp, .heic |
| 视频 | .mp4, .mkv, .avi, .mov |
| 音频 | .mp3, .wav, .aac |
| 网页 | 动态网页, http://<任意>.com |
即将支持与Langchain、llamaindex和haystack的客户端库集成。
解析任意文档
端点:/parse_document
方法:POST
解析PDF、PowerPoint或Word文档。
Curl命令:
bashcurl -X POST -F "file=@/path/to/document" http://localhost:8000/parse_document
解析PDF
端点:/parse_document/pdf
方法:POST
解析PDF文档。
Curl命令:
bashcurl -X POST -F "file=@/path/to/document.pdf" http://localhost:8000/parse_document/pdf
解析PowerPoint
端点:/parse_document/ppt
方法:POST
解析PowerPoint演示文稿。
Curl命令:
bashcurl -X POST -F "file=@/path/to/presentation.ppt" http://localhost:8000/parse_document/ppt
解析Word文档
端点:/parse_document/docs
方法:POST
解析Word文档。
Curl命令:
bashcurl -X POST -F "file=@/path/to/document.docx" http://localhost:8000/parse_document/docs
解析图像
端点:/parse_media/image
方法:POST
解析图像文件(PNG、JPEG、JPG、TIFF、WEBP)。
Curl命令:
bashcurl -X POST -F "file=@/path/to/image.jpg" http://localhost:8000/parse_media/image
处理图像
端点:/parse_media/process_image
方法:POST
使用特定任务处理图像。
可能的任务输入:
OCR | OCR with Region | Caption | Detailed Caption | More Detailed Caption | Object Detection | Dense Region Caption | Region Proposal
Curl命令:
bashcurl -X POST -F "image=@/path/to/image.jpg" -F "task=Caption" -F "prompt=可选提示词" http://localhost:8000/parse_media/process_image
参数:
image: 图像文件task: 处理任务(如Caption、Object Detection)prompt: 特定任务的可选提示词解析视频
端点:/parse_media/video
方法:POST
解析视频文件(MP4、AVI、MOV、MKV)。
Curl命令:
bashcurl -X POST -F "file=@/path/to/video.mp4" http://localhost:8000/parse_media/video
解析音频
端点:/parse_media/audio
方法:POST
解析音频文件(MP3、WAV、FLAC)。
Curl命令:
bashcurl -X POST -F "file=@/path/to/audio.mp3" http://localhost:8000/parse_media/audio
解析网站
端点:/parse_website
方法:POST
解析指定URL的网站。
Curl命令:
bashcurl -X POST -H "Content-Type: application/json" -d '{"url": "https://example.com"}' http://localhost:8000/parse_website
参数:
url: 要解析的网站URL🦙 即将支持LlamaIndex | Langchain | Haystack集成
📚 批量处理数据
⭐ 基于指定模式的动态分块和结构化数据提取
🛠️ 万能API:只需输入文件和需求,其余自动处理
🔧 动态模型选择和外部API支持
📄 批量处理多个文件
📦 新开源模型替代Surya OCR和Marker
最终目标:用单一多模态模型替代当前使用的各种模型,解析任何类型的数据并获取所需结果。
OmniParse采用GPL-3.0许可证。详见LICENSE文件。
本项目基于Vik Paruchuri创建的杰出项目https://github.com/VikParuchuri/marker%E5%BC%80%E5%8F%91%E3%80%82%E6%84%9F%E8%B0%A2%E8%AF%A5%E9%A1%B9%E7%9B%AE%E6%8F%90%E4%BE%9B%E7%9A%84%E7%81%B5%E6%84%9F%E5%92%8C%E5%9F%BA%E7%A1%80%E3%80%82%E7%89%B9%E5%88%AB%E6%84%9F%E8%B0%A2https://github.com/VikParuchuri/surya%E5%92%8Chttps://github.com/VikParuchuri/texify%E6%8F%90%E4%BE%9B%E7%9A%84OCR%E6%A8%A1%E5%9E%8B%EF%BC%8C%E4%BB%A5%E5%8F%8Ahttps://github.com/unclecode/crawl4ai%E7%9A%84%E8%B4%A1%E7%8C%AE%E3%80%82
使用的模型:
感谢这些模型的作者。
如有任何问题,请联系***
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
docker search 限制
站内搜不到镜像
离线 save/load
插件要用 plugin install
WSL 拉取慢
安全与 digest
新手拉取配置
镜像合规机制
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
域名连通性排查
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务