本仓库是Liquid Investigations的一部分。
Hoover是一款用于大量文档集合的搜索工具。它整合了elasticsearch和Apache Tika等成熟的开源技术,以辅助调查记者的工作。
搜索通过用户友好的Web界面进行,该界面利用了Lucene丰富的查询语法。Hoover还提供API,可使用elasticsearch的查询DSL运行查询。
使用Liquid Investigations
存在测试套件;在hoover-search容器上运行./run testsuite即可执行测试。
依赖项中已安装Waitress,这是一个生产级别的线程化WSGI服务器。选择一个端口号(例如8888),按以下方式运行——它不会后台运行,因此您可以通过supervisor或其他现代守护进程管理器启动它:
shell./run server --host=127.0.0.1 --port=8888
之后,您可能需要在应用前设置反向代理。以下是最小化的Nginx配置:
nginxlocation / { proxy_pass http://localhost:8888; proxy_set_header Host $host; proxy_set_header X-Forwarded-Proto $scheme; }
要自定义Hoover的行为,您可以在hoover/site/settings/local.py中设置以下Django配置:
HOOVER_HYPOTHESIS_EMBED_URL:嵌入Hypothesis客户端的URL,例如[***]对于大型数据集,通过管理界面上传文件并不实用,因此您可以使用hoover-snoop。它是一款用于预处理集合、从电子邮件和文档中提取元数据以及访问归档文件和电子邮件附件内容的工具。Snoop作为独立的Django应用程序提供,它监听HTTP端口,提供文档预览和原始文档访问,并自行处理elasticsearch中的文档索引。
要将其与hoover-search配合使用,请先设置snoop服务,分析数据并发送到elasticsearch,然后返回hoover-snoop,创建类型为“外部”的新集合,并使用以下选项:
json{ "documents": "http://localhost:8001/doc", "renderDocument": true }
documents URL由hoover-snoop的URL(本示例中为http://localhost:8001)后跟/doc组成。
renderDocument告诉hoover-search使用hoover-ui的新doc.html视图来呈现文档预览页面。如果不使用hoover-ui,则省略此标志。
从drone官网下载drone CLI二进制文件并添加到PATH中。安装最新版本的Docker CE。
然后,使用通常传递给py.test的参数运行./run-tests,例如:
./run-tests -vvv -x -k ratelimits
测试期间将创建docker-setup目录。测试完成后,确保使用sudo rm -r docker-setup删除该目录。

来自真实用户的反馈,见证轩辕镜像的优质服务
免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
在 Linux 系统配置镜像加速服务
在 Docker Desktop 配置镜像加速
Docker Compose 项目配置加速
Kubernetes 集群配置 Containerd
在宝塔面板一键配置镜像加速
Synology 群晖 NAS 配置加速
飞牛 fnOS 系统配置镜像加速
极空间 NAS 系统配置加速服务
爱快 iKuai 路由系统配置加速
绿联 NAS 系统配置镜像加速
QNAP 威联通 NAS 配置加速
Podman 容器引擎配置加速
HPC 科学计算容器配置加速
ghcr、Quay、nvcr 等镜像仓库
无需登录使用专属域名加速