
angelborroy/alfresco-tengine-ocralf-tengine-ocr是一个预配置的Docker镜像,将Tengine(Nginx的增强版)与光学字符识别(OCR)功能集成在一起,专门为Alfresco内容管理系统提供文档文本识别服务。该镜像简化了在Alfresco环境中部署OCR服务的过程,使系统能够自动从图像和扫描文档中提取文本内容。
alf-tengine-ocr适用于以下场景:
使用以下命令快速启动容器:
bashdocker run -d -p 8080:8080 --name alf-tengine-ocr aborroy/alf-tengine-ocr
创建docker-compose.yml文件:
yamlversion: '3' services: alf-tengine-ocr: image: aborroy/alf-tengine-ocr container_name: alf-tengine-ocr ports: - "8080:8080" environment: - OCR_LANGUAGE=eng+chi_sim - TENGINE_WORKERS=4 - ALFRESCO_URL=[***] volumes: - ./ocr-data:/var/lib/ocr restart: unless-stopped
启动服务:
bashdocker-compose up -d
alf-tengine-ocr支持以下环境变量进行配置:
| 环境变量 | 描述 | 默认值 |
|---|---|---|
OCR_LANGUAGE | 指定OCR支持的语言,使用+分隔多种语言 | eng (英语) |
TENGINE_WORKERS | Tengine工作进程数 | 2 |
ALFRESCO_URL | Alfresco服务器URL | http://localhost:8080 |
OCR_TIMEOUT | OCR处理超时时间(秒) | 300 |
MAX_FILE_SIZE | 最大处理文件大小(M) | 50 |
LOG_LEVEL | 日志级别(debug, info, warn, error) | info |
推荐挂载以下目录以实现数据持久化:
/var/lib/ocr - OCR处理缓存和临时文件/etc/tengine/conf.d - 自定义Tengine配置文件/var/log/tengine - 日志文件如需自定义Tengine配置,可以挂载配置文件到容器中:
bashdocker run -d -p 8080:8080 \ -v ./custom-ocr.conf:/etc/tengine/conf.d/ocr.conf \ --name alf-tengine-ocr aborroy/alf-tengine-ocr
详细的Alfresco集成步骤请参考Alfresco官方文档中关于内容转换服务的配置部分。
bashdocker logs -f alf-tengine-ocr
服务提供健康检查端点:
http://<container-ip>:8080/health
bashdocker pull aborroy/alf-tengine-ocr docker stop alf-tengine-ocr docker rm alf-tengine-ocr docker run -d -p 8080:8080 --name alf-tengine-ocr aborroy/alf-tengine-ocr
默认包含英语语言包,可通过OCR_LANGUAGE环境变量添加其他语言支持,如:
完整的语言支持列表请参考OCR引擎文档。
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务