ukwa/webarchive-discovery-solr该镜像为Docker化的Solr版本,包含基于webarchive-discovery模式的核心组件,用于对ARC和WARC文件进行数据挖掘与索引,使文件内容可被探索和发现,适用于网络档案管理、数据检索等场景。
通过提供的docker-compose文件启动服务:
bash$ cd warc-indexer/src/main/opensearch/os1 $ docker-compose up -d
创建索引需执行以下命令(使用schema.json定义结构):
bash$ curl --insecure --user admin:admin -H 'Content-Type: application/json' -XPUT https://localhost:9200/warcdiscovery/ -d @schema.json
删除索引命令:
bash$ curl --insecure --user admin:admin -XDELETE https://localhost:9200/warcdiscovery
Solr模式移植至Opensearch的主要调整:
index_time字段默认值"NOW"由warcindexer处理content_type_norm字段默认值"other"由warcindexer处理content字段必须索引以支持position_increment_gapssdeep_hash_bs_*作为动态字段,机构特定值可按需添加使用以下命令将WARC文件索引至Opensearch:
bash$ java -jar target/warc-indexer-*-jar-with-dependencies.jar -e https://localhost:9200/warcdiscovery/ --user admin --password admin src/test/resources/***-mona-lisa/flashfrozen-jwat-recompressed.warc.gz
详细文档参见项目Wiki
整体遵循GNU通用公共许可证第2版,部分子组件采用Apache软件许可证第2.0版。


manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务