
liquidinvestigations/hoover-search本仓库是Liquid Investigations的一部分。
Hoover是一款用于大量文档集合的搜索工具。它整合了elasticsearch和Apache Tika等成熟的开源技术,以辅助调查记者的工作。
搜索通过用户友好的Web界面进行,该界面利用了Lucene丰富的查询语法。Hoover还提供API,可使用elasticsearch的查询DSL运行查询。
使用Liquid Investigations
存在测试套件;在hoover-search容器上运行./run testsuite即可执行测试。
依赖项中已安装Waitress,这是一个生产级别的线程化WSGI服务器。选择一个端口号(例如8888),按以下方式运行——它不会后台运行,因此您可以通过supervisor或其他现代守护进程管理器启动它:
shell./run server --host=127.0.0.1 --port=8888
之后,您可能需要在应用前设置反向代理。以下是最小化的Nginx配置:
nginxlocation / { proxy_pass http://localhost:8888; proxy_set_header Host $host; proxy_set_header X-Forwarded-Proto $scheme; }
要自定义Hoover的行为,您可以在hoover/site/settings/local.py中设置以下Django配置:
HOOVER_HYPOTHESIS_EMBED_URL:嵌入Hypothesis客户端的URL,例如[***]对于大型数据集,通过管理界面上传文件并不实用,因此您可以使用hoover-snoop。它是一款用于预处理集合、从电子邮件和文档中提取元数据以及访问归档文件和电子邮件附件内容的工具。Snoop作为独立的Django应用程序提供,它监听HTTP端口,提供文档预览和原始文档访问,并自行处理elasticsearch中的文档索引。
要将其与hoover-search配合使用,请先设置snoop服务,分析数据并发送到elasticsearch,然后返回hoover-snoop,创建类型为“外部”的新集合,并使用以下选项:
json{ "documents": "http://localhost:8001/doc", "renderDocument": true }
documents URL由hoover-snoop的URL(本示例中为http://localhost:8001)后跟/doc组成。
renderDocument告诉hoover-search使用hoover-ui的新doc.html视图来呈现文档预览页面。如果不使用hoover-ui,则省略此标志。
从drone官网下载drone CLI二进制文件并添加到PATH中。安装最新版本的Docker CE。
然后,使用通常传递给py.test的参数运行./run-tests,例如:
./run-tests -vvv -x -k ratelimits
测试期间将创建docker-setup目录。测试完成后,确保使用sudo rm -r docker-setup删除该目录。

manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务