ukwa/webarchive-discoveryWeb Archive Discovery 是用于对 ARC 和 WARC 文件进行数据挖掘与索引的组件集合,旨在使存档内容可探索和发现。通过该工具,用户可对 Web 存档文件(ARC/WARC)进行处理,构建可检索的索引,支持内容的高效查询与分析。
该工具依赖 OpenSearch 集群存储索引数据,可通过以下步骤启动开发环境的 OpenSearch 服务:
bash# 进入 docker-compose 配置目录 cd warc-indexer/src/main/opensearch/os1 # 启动 OpenSearch 集群(后台运行) docker-compose up -d
索引创建需通过 HTTP 请求执行,使用预定义的 schema.json 定义索引结构:
bash# 创建索引(--insecure 用于跳过 SSL 证书验证,适用于开发环境) curl --insecure --user admin:admin -H 'Content-Type: application/json' -XPUT https://localhost:9200/warcdiscovery/ -d @schema.json # 删除索引(如需重新初始化) curl --insecure --user admin:admin -XDELETE https://localhost:9200/warcdiscovery
参数说明:
--user admin:admin:OpenSearch 默认管理员凭据(开发环境)。https://localhost:9200/warcdiscovery/:索引 URL,warcdiscovery 为索引名称。schema.json:索引结构定义文件,位于当前执行目录。通过 warc-indexer 工具将 WARC 文件内容索引至 OpenSearch,命令格式如下:
bashjava -jar target/warc-indexer-*-jar-with-dependencies.jar \ -e https://localhost:9200/warcdiscovery/ \ --user admin \ --password admin \ src/test/resources/***-mona-lisa/flashfrozen-jwat-recompressed.warc.gz
参数说明:
-e:指定 OpenSearch 索引 URL(需包含索引名称 warcdiscovery)。--user/--password:OpenSearch 认证凭据。索引模式(schema)从 Solr 移植至 OpenSearch 时存在以下差异:
index_time 字段的默认值 "NOW" 由 warc-indexer 在索引时设置。content_type_norm 字段的默认值 "other" 由 warc-indexer 在索引时设置。content 字段必须显式开启索引,否则 OpenSearch 无法设置 position_increment_gap(位置增量间隔)。ssdeep_hash_bs_*,机构特定字段需手动添加(支持自定义扩展)。完整文档参见项目 Wiki。



manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务