
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
欢迎使用Hyphe,这是一款由Sciences Po médialab开发的研究驱动型网络爬虫,适用于DIME-SHS Web项目(ANR-10-EQPX-19-01)。
Hyphe旨在提供构建网络语料库的工具,通过从网络爬取数据并生成"网络实体"之间的关联网络。网络实体可以是单个页面、网站、子域名或其部分,甚至是这些元素的组合。
您可以通过以下链接试用Hyphe的有限版本:[***]
详细教程可在https://github.com/medialab/hyphe/wiki%E4%B8%AD%E6%89%BE%E5%88%B0%E3%80%82
运行Hyphe前,建议先调整设置。默认配置可直接使用,但您可能需要根据需求进行优化。虽然安装后可修改配置,但建议参考配置文档了解各选项的详细说明。
警告:Hyphe可能会占用大量磁盘空间。一个包含数百次深度为2的爬取的大型语料库可轻松占用50GB以上空间。若计划支持多用户,需确保机器至少有数百GB可用空间。可通过将store_crawled_html_content设为false并限制max_depth来减少磁盘占用。
Hyphe近年来变化较大,通过git拉取代码迁移旧版本无法保证兼容性,强烈建议从头重新安装。旧语料库可通过从旧版本导出网络实体列表,在新版本中重新爬取来重建。
在Linux、macOS或Windows上的简易安装方案是使用[***]
Docker容器体积较大:安装前需确保至少4GB可用空间。如前所述,常规完整使用Hyphe需至少100GB可用空间。
1. 安装Docker
首先按照https://docs.docker.com/installation/%E5%9C%A8%E6%82%A8%E7%9A%84%E6%9C%BA%E5%99%A8%E4%B8%8A%E9%83%A8%E7%BD%B2Docker%E3%80%82
安装并运行Docker后,需使用Docker Compose来一键设置和编排Hyphe服务。Windows和macOS版Docker已内置Docker Compose,Linux用户可能需要https://docs.docker.com/compose/install/%E3%80%82
2. 下载Hyphe
通过git仓库获取Hyphe源代码(推荐,以便获取未来更新)或下载并解压https://github.com/medialab/hyphe/releases%EF%BC%8C%E7%84%B6%E5%90%8E%E8%BF%9B%E5%85%A5%E7%9B%AE%E5%BD%95%EF%BC%9A
bashgit clone https://github.com/medialab/hyphe.git hyphe cd hyphe
3. 配置
复制默认配置文件并编辑以调整设置:
bash# Windows PowerShell下使用"copy"替代"cp" cp .env.example .env cp config-backend.env.example config-backend.env cp config-frontend.env.example config-frontend.env
.env文件可配置以下内容:
TAG:指定使用的Docker镜像版本
prod:最新稳定版preprod:中间不稳定开发版PUBLIC_PORT:Hyphe的Web服务端口(单服务服务器通常为80,共享主机可使用其他需重定向的端口)
DATA_PATH:Hyphe会快速消耗数GB硬盘空间。默认情况下,卷存储在Docker默认目录中,您可在此定义自定义路径。
警告:DATA_PATH必须为空,或为包含首尾斜杠的完整绝对路径(例如/var/opt/hyphe/)。
目前Windows不支持此配置,需保持为空(因此应在空间充足的驱动器上安装Hyphe)。
RESTART_POLICY:容器自动重启策略
no:(默认)任何情况下不自动重启always:停止时始终重启on-failure:仅在退出码指示故障时重启unless-stopped:除非显式停止,否则始终重启若需Hyphe在开机时自动启动,应使用always策略,并确保Docker守护进程随系统启动。
Hyphe内部设置可在config-backend.env和config-frontend.env中调整。根据配置文档建议修改设置值。
若需限制访问,应将config-backend.env中的HYPHE_OPEN_CORS_API设为false,并在config-frontend.env中设置HYPHE_HTPASSWORD_USER和HYPHE_HTPASSWORD_PASS(使用openssl passwd -apr1生成密码加密值)。
4. 准备Docker容器
有两种选择:拉取或构建Hyphe Docker容器。
推荐:拉取 Docker Hub上的官方预构建镜像
bashdocker-compose pull
替代:构建 源代码镜像(主要用于开发、代码编辑或特定配置):
bashdocker-compose build
拉取速度更快,但无论哪种方式都需几分钟下载或构建。
5. 启动Hyphe
最后,使用以下命令启动Hyphe容器(将在控制台显示所有日志,按Ctrl+C停止):
bashdocker-compose up
或作为后台守护进程运行(例如服务器生产环境):
bashdocker-compose up -d
6. 停止与监控Hyphe
停止后台运行的容器:docker-compose stop(或docker-compose down清理依赖数据)。
使用docker-compose logs查看容器日志,添加-f选项跟踪最新日志(类似tail)。
修改配置文件后,需重启容器使更改生效:
bashdocker-compose stop docker-compose up -d
运行docker-compose help获取更多高级用法。若Docker构建遇到问题,请通过https://github.com/medialab/hyphe/issues%E6%8A%A5%E5%91%8A%EF%BC%8C%E5%B9%B6%E6%8F%90%E4%BE%9B%60docker images输出的镜像ID(或源代码安装的最后一次提交ID,通过git log`查看)。
7. 更新至未来版本
若通过git安装并从DockerHub拉取镜像,可通过以下步骤更新至未来次要版本:
bashdocker-compose down git pull docker-compose pull # 必要时编辑配置文件以使用新选项 docker-compose up -d
若您的机器运行无法支持Docker的旧Linux发行版,或需参与Hyphe后端开发,可按照手动安装指南进行安装。
请注意,手动安装存在许多依赖项,可能会遇到问题。可通过https://github.com/medialab/hyphe/issues%E6%8F%8F%E8%BF%B0%E9%97%AE%E9%A2%98%E5%AF%BB%E6%B1%82%E5%B8%AE%E5%8A%A9%E3%80%82
Hyphe依赖Web界面和需持续运行的服务器守护进程。手动安装后,需使用以下命令(无需sudo)启动、停止或重启守护进程:
bashbin/hyphe <start|restart|stop> [--nologs]
默认情况下,启动器会使用tail在控制台显示Hyphe日志。按Ctrl+C可停止显示日志但不关闭Hyphe。使用--nologs选项禁用启动时的日志显示。日志始终保存在log目录中。
所有设置可在全局配置文件config/config.json中直接配置,修改后需重启Hyphe生效:bin/hyphe restart。
Docker容器或手动守护进程启动后,可通过以下URL在本地访问Hyphe Web界面:
个人使用可直接访问,若需供他人使用(例如部署在远程服务器),需配置Web服务器并进行调整。详见专用文档。
请阅读开发者文档和API描述。
查看我们的路线图!
解释视频(法语)使用Hyphe探索网络(2017年9月)。Mathieu Jacomy在Sciences Po CEVIPOF的METSEM研讨会上介绍Hyphe。
(法语)氢能源领域的网络,作者Mathieu Boyer(2018)
JACOMY, Mathieu, GIRARD, Paul, OOGHE-TABANOU, Benjamin等,"Hyphe:面向社会科学的基于语料库构建的网络爬虫方法",载于《国际AAAI网络与社交媒体会议论文集》。美国人工智能协会,2016。
PLIQUE, Guillaume, JACOMY, Mathieu, OOGHE-TABANOU, Benjamin & GIRARD, Paul,"It's a Tree... It's a Graph... It's a Traph!!!! Designing an on-file multi-level graph index for the Hyphe web crawler"。(视频 / https://medialab.github.io/hyphe-traph/fosdem2018/) 2018年2月3日在比利时布鲁塞尔FOSDEM会议上的演讲。
OOGHE-TABANOU, Benjamin, JACOMY, Mathieu, GIRARD, Paul & PLIQUE, Guillaume,"Hyperlink is not dead!" (会议论文 / 幻灯片),载于《第2届国际网络研究会议论文集》(WS.2 2018),Everardo Reyes, Mark Bernstein, Giancarlo Ruffo和Imad Saleh(编)。ACM,美国纽约,12-18页。DOI: https://doi.org/10.1145/3240431.3240434
(完整列表请参见英文原文,此处列举部分示例)
ÁLVARO SÁNCHEZ, Sandra, 2019, "设计、参与和生产的拓扑空间:跟踪转型空间", 载于《同行生产期刊》,第13期:开放。
FROIO, Caterina, "我们与他人:法国极右翼网站上的他者性", 载于《网络》,2017/2(第202-203期),39-78页。DOI: 10.3917/res.202.0039。
https://github.com/jacomyma%E3%80%81https://github.com/boogheta 与 https://github.com/Yomguithereal @ https://github.com/medialab
在médialab工具了解更多我们的项目。
本项目由DIME-Web支持,该项目是DIME-SHS研究设备的一部分,由EQUIPEX计划(ANR-10-EQPX-19-01)资助。
Hyphe是自由开源软件,采用AGPL 3.0许可证发布。
" [...] 我将_kainos_(希腊语:“现在”)理解为浓厚、持续的存在,菌丝(hyphae)渗透各种时间性和物质性。"
——唐娜·J·哈拉维,《与麻烦共处:与克苏鲁纪共生》,第2页
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务