
dadoonet/fscrawlerFS Crawler Docker镜像是用于Elasticsearch的文档索引工具,专注于爬取并索引PDF、Open Office、MS Office等二进制文档。支持本地文件系统、远程文件系统(SSH/FTP)爬取及REST接口文档上传,可根据需求选择是否集成OCR功能。
noocr版本镜像,体积更小默认镜像包含Tesseract OCR引擎及所有训练语言数据,增加超过500MB体积:
shdocker pull dadoonet/fscrawler
若无需OCR功能,可使用体积更小的noocr版本:
shdocker pull dadoonet/fscrawler:noocr
shdocker run -it --rm \ -v ~/.fscrawler:/root/.fscrawler \ # 挂载配置文件存储目录 -v ~/tmp:/tmp/es:ro \ # 挂载待索引文档目录(只读) dadoonet/fscrawler job_name # job_name为自定义作业名称
~/tmp:需替换为本地实际存储待索引文档的目录~/.fscrawler/job_name/_settings.yaml通过FS_JAVA_OPTS环境变量配置日志级别:
shdocker run -it --rm \ -v ~/.fscrawler:/root/.fscrawler \ -v ~/tmp:/tmp/es:ro \ -v ~/logs:/root/logs \ # 挂载日志存储目录 -e FS_JAVA_OPTS="-DLOG_LEVEL=debug -DDOC_LEVEL=debug" \ # 调整全局及文档级日志级别 dadoonet/fscrawler job_name
详细使用方法请参考官方文档及“使用Docker”章节。
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务