轩辕镜像 官方专业版
轩辕镜像
专业版
轩辕镜像 官方专业版
轩辕镜像
专业版
首页个人中心搜索镜像
交易
充值流量¥7起我的订单
文档
工具
提交工单页面收录
hyphe_backend

scpomedialab/hyphe_backend

scpomedialab
自动构建

具有内置探索和控制Web界面的网站爬虫工具,用于构建网络语料库并生成网页实体间的关联网络,支持自定义爬虫深度和实体范围。

2 次收藏下载次数: 0状态:自动构建维护者:scpomedialab仓库类型:镜像最近更新:9 个月前
让 AI 帮你使用轩辕镜像? · 展开查看说明 · 点击收起说明

如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。

只需在 AI 对话中先发送下面这句话即可:

请先完整阅读并严格遵守以下文档中的全部规则与要求:

https://xuanyuan.cloud/agents.md

在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。

查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。

中文简介
下载命令
镜像标签列表与下载命令
轩辕镜像,加速的不只是镜像。
点击查看

Hyphe:网络语料库构建工具与链接爬虫

欢迎使用Hyphe,这是一款由Sciences Po médialab开发的研究驱动型网络爬虫,适用于DIME-SHS Web项目(ANR-10-EQPX-19-01)。

Hyphe旨在提供构建网络语料库的工具,通过从网络爬取数据并生成"网络实体"之间的关联网络。网络实体可以是单个页面、网站、子域名或其部分,甚至是这些元素的组合。

演示与教程

您可以通过以下链接试用Hyphe的有限版本:[***]

详细教程可在https://github.com/medialab/hyphe/wiki%E4%B8%AD%E6%89%BE%E5%88%B0%E3%80%82

安装方法

运行Hyphe前,建议先调整设置。默认配置可直接使用,但您可能需要根据需求进行优化。虽然安装后可修改配置,但建议参考配置文档了解各选项的详细说明。

警告:Hyphe可能会占用大量磁盘空间。一个包含数百次深度为2的爬取的大型语料库可轻松占用50GB以上空间。若计划支持多用户,需确保机器至少有数百GB可用空间。可通过将store_crawled_html_content设为false并限制max_depth来减少磁盘占用。

旧版本迁移

Hyphe近年来变化较大,通过git拉取代码迁移旧版本无法保证兼容性,强烈建议从头重新安装。旧语料库可通过从旧版本导出网络实体列表,在新版本中重新爬取来重建。

简易安装:使用Docker

在Linux、macOS或Windows上的简易安装方案是使用[***]

Docker容器体积较大:安装前需确保至少4GB可用空间。如前所述,常规完整使用Hyphe需至少100GB可用空间。

1. 安装Docker

首先按照https://docs.docker.com/installation/%E5%9C%A8%E6%82%A8%E7%9A%84%E6%9C%BA%E5%99%A8%E4%B8%8A%E9%83%A8%E7%BD%B2Docker%E3%80%82

安装并运行Docker后,需使用Docker Compose来一键设置和编排Hyphe服务。Windows和macOS版Docker已内置Docker Compose,Linux用户可能需要https://docs.docker.com/compose/install/%E3%80%82

2. 下载Hyphe

通过git仓库获取Hyphe源代码(推荐,以便获取未来更新)或下载并解压https://github.com/medialab/hyphe/releases%EF%BC%8C%E7%84%B6%E5%90%8E%E8%BF%9B%E5%85%A5%E7%9B%AE%E5%BD%95%EF%BC%9A

bash
git clone https://github.com/medialab/hyphe.git hyphe
cd hyphe

3. 配置

复制默认配置文件并编辑以调整设置:

bash
# Windows PowerShell下使用"copy"替代"cp"
cp .env.example .env
cp config-backend.env.example config-backend.env
cp config-frontend.env.example config-frontend.env

.env文件可配置以下内容:

  • TAG:指定使用的Docker镜像版本

    • prod:最新稳定版
    • preprod:中间不稳定开发版
  • PUBLIC_PORT:Hyphe的Web服务端口(单服务服务器通常为80,共享主机可使用其他需重定向的端口)

  • DATA_PATH:Hyphe会快速消耗数GB硬盘空间。默认情况下,卷存储在Docker默认目录中,您可在此定义自定义路径。

    警告:DATA_PATH必须为空,或为包含首尾斜杠的完整绝对路径(例如/var/opt/hyphe/)。

    目前Windows不支持此配置,需保持为空(因此应在空间充足的驱动器上安装Hyphe)。

  • RESTART_POLICY:容器自动重启策略

    • no:(默认)任何情况下不自动重启
    • always:停止时始终重启
    • on-failure:仅在退出码指示故障时重启
    • unless-stopped:除非显式停止,否则始终重启

    若需Hyphe在开机时自动启动,应使用always策略,并确保Docker守护进程随系统启动。

Hyphe内部设置可在config-backend.env和config-frontend.env中调整。根据配置文档建议修改设置值。

若需限制访问,应将config-backend.env中的HYPHE_OPEN_CORS_API设为false,并在config-frontend.env中设置HYPHE_HTPASSWORD_USER和HYPHE_HTPASSWORD_PASS(使用openssl passwd -apr1生成密码加密值)。

4. 准备Docker容器

有两种选择:拉取或构建Hyphe Docker容器。

  • 推荐:拉取 Docker Hub上的官方预构建镜像

    bash
    docker-compose pull
    
  • 替代:构建 源代码镜像(主要用于开发、代码编辑或特定配置):

    bash
    docker-compose build
    

拉取速度更快,但无论哪种方式都需几分钟下载或构建。

5. 启动Hyphe

最后,使用以下命令启动Hyphe容器(将在控制台显示所有日志,按Ctrl+C停止):

bash
docker-compose up

或作为后台守护进程运行(例如服务器生产环境):

bash
docker-compose up -d

6. 停止与监控Hyphe

停止后台运行的容器:docker-compose stop(或docker-compose down清理依赖数据)。

使用docker-compose logs查看容器日志,添加-f选项跟踪最新日志(类似tail)。

修改配置文件后,需重启容器使更改生效:

bash
docker-compose stop
docker-compose up -d

运行docker-compose help获取更多高级用法。若Docker构建遇到问题,请通过https://github.com/medialab/hyphe/issues%E6%8A%A5%E5%91%8A%EF%BC%8C%E5%B9%B6%E6%8F%90%E4%BE%9B%60docker images输出的镜像ID(或源代码安装的最后一次提交ID,通过git log`查看)。

7. 更新至未来版本

若通过git安装并从DockerHub拉取镜像,可通过以下步骤更新至未来次要版本:

bash
docker-compose down
git pull
docker-compose pull
# 必要时编辑配置文件以使用新选项
docker-compose up -d

手动安装(复杂,仅Linux)

若您的机器运行无法支持Docker的旧Linux发行版,或需参与Hyphe后端开发,可按照手动安装指南进行安装。

请注意,手动安装存在许多依赖项,可能会遇到问题。可通过https://github.com/medialab/hyphe/issues%E6%8F%8F%E8%BF%B0%E9%97%AE%E9%A2%98%E5%AF%BB%E6%B1%82%E5%B8%AE%E5%8A%A9%E3%80%82

Hyphe依赖Web界面和需持续运行的服务器守护进程。手动安装后,需使用以下命令(无需sudo)启动、停止或重启守护进程:

bash
bin/hyphe <start|restart|stop> [--nologs]

默认情况下,启动器会使用tail在控制台显示Hyphe日志。按Ctrl+C可停止显示日志但不关闭Hyphe。使用--nologs选项禁用启动时的日志显示。日志始终保存在log目录中。

所有设置可在全局配置文件config/config.json中直接配置,修改后需重启Hyphe生效:bin/hyphe restart。

在网络上提供Hyphe服务

Docker容器或手动守护进程启动后,可通过以下URL在本地访问Hyphe Web界面:

  • Docker安装:http://localhost/
  • 手动安装:http://localhost/hyphe

个人使用可直接访问,若需供他人使用(例如部署在远程服务器),需配置Web服务器并进行调整。详见专用文档。

高级开发者功能与贡献

请阅读开发者文档和API描述。

下一步

查看我们的路线图!

论文与参考文献

教程/示例

  • 解释视频(法语)使用Hyphe探索网络(2017年9月)。Mathieu Jacomy在Sciences Po CEVIPOF的METSEM研讨会上介绍Hyphe。

  • (法语)氢能源领域的网络,作者Mathieu Boyer(2018)

关于Hyphe的 publications

  • JACOMY, Mathieu, GIRARD, Paul, OOGHE-TABANOU, Benjamin等,"Hyphe:面向社会科学的基于语料库构建的网络爬虫方法",载于《国际AAAI网络与社交媒体会议论文集》。美国人工智能协会,2016。

  • PLIQUE, Guillaume, JACOMY, Mathieu, OOGHE-TABANOU, Benjamin & GIRARD, Paul,"It's a Tree... It's a Graph... It's a Traph!!!! Designing an on-file multi-level graph index for the Hyphe web crawler"。(视频 / https://medialab.github.io/hyphe-traph/fosdem2018/) 2018年2月3日在比利时布鲁塞尔FOSDEM会议上的演讲。

  • OOGHE-TABANOU, Benjamin, JACOMY, Mathieu, GIRARD, Paul & PLIQUE, Guillaume,"Hyperlink is not dead!" (会议论文 / 幻灯片),载于《第2届国际网络研究会议论文集》(WS.2 2018),Everardo Reyes, Mark Bernstein, Giancarlo Ruffo和Imad Saleh(编)。ACM,美国纽约,12-18页。DOI: https://doi.org/10.1145/3240431.3240434

使用Hyphe的 publications

(完整列表请参见英文原文,此处列举部分示例)

  • ÁLVARO SÁNCHEZ, Sandra, 2019, "设计、参与和生产的拓扑空间:跟踪转型空间", 载于《同行生产期刊》,第13期:开放。

  • FROIO, Caterina, "我们与他人:法国极右翼网站上的他者性", 载于《网络》,2017/2(第202-203期),39-78页。DOI: 10.3917/res.202.0039。

credits与许可

https://github.com/jacomyma%E3%80%81https://github.com/boogheta 与 https://github.com/Yomguithereal @ https://github.com/medialab

在médialab工具了解更多我们的项目。

本项目由DIME-Web支持,该项目是DIME-SHS研究设备的一部分,由EQUIPEX计划(ANR-10-EQPX-19-01)资助。

Hyphe是自由开源软件,采用AGPL 3.0许可证发布。

" [...] 我将_kainos_(希腊语:“现在”)理解为浓厚、持续的存在,菌丝(hyphae)渗透各种时间性和物质性。"

——唐娜·J·哈拉维,《与麻烦共处:与克苏鲁纪共生》,第2页

镜像拉取方式

您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。

轩辕镜像加速拉取命令点我查看更多 hyphe_backend 镜像标签

docker pull docker.xuanyuan.run/scpomedialab/hyphe_backend:<标签>

使用方法:

  • 登录认证方式
  • 免认证方式

DockerHub 原生拉取命令

docker pull scpomedialab/hyphe_backend:<标签>

轩辕镜像配置手册

按平台快速找到配置文档

一键安装

一键安装 Docker

Linux Docker 一键安装

AI

用 AI 使用轩辕镜像

agents.md · AI 对话 · 提示词

Docker

登录仓库拉取

登录认证 · 私有仓库

专属域名拉取

免登录 · 高速拉取

Linux

Docker 镜像配置

Windows / Mac

Docker Desktop 配置

MacOS OrbStack

OrbStack 容器

Apple Container

macOS 原生容器

Docker Compose

Compose 项目配置

NAS

群晖

Synology 配置

飞牛

fnOS 镜像配置

绿联

绿联 NAS

威联通

QNAP 配置

极空间

极空间 NAS

Unraid

Unraid NAS

企业仓库

其他仓库

ghcr · Quay · nvcr

Harbor 镜像源

Proxy Repository 对接

Portainer 镜像源

Registries 配置

Nexus 镜像源

Docker Proxy 缓存

开发工具

Dev Containers

VS Code 开发容器

Podman

Podman 配置指南

Singularity / Apptainer

HPC 科学计算容器

Kubernetes

K8s Containerd

Kubernetes · Containerd

K3s

轻量级集群

面板 / 网络

爱快路由

iKuai 镜像加速

宝塔面板

一键配置镜像源

需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单

镜像拉取常见问题

功能

版本功能对比

功能对比 · 版本选择

支持的镜像仓库

Docker Hub · GCR · GHCR

新手拉取配置

登录 · 专属域名 · 配置

docker search 限制

专属域名 · Hub 搜索

不支持 push

仅支持 pull · 不支持

拉取速度原因

带宽 · 缓存 · 冷热镜像

错误码

402 与流量用尽

402 · 流量包 · 充值

401 认证失败

401 · docker login

manifest unknown

标签错误 · 镜像不存在

410 Gone 排查

410 · Docker 升级

429 限流

免费版 · 专业版 · 企业版 · 请求频率

其他报错

DNS 超时

DNS 解析 · 网络超时

TLS 证书失败

no matching manifest(架构)

账号

失败是否计费

manifest · blob · 计费

申请开发票(企业 / 个人)

企业 · 个人 · 工单

修改登录密码

网站 · 仓库 · 重置

注销账户

工单 · 数据 · 注销

原理

mirrors 不生效

daemon.json · 重启

去掉域名前缀

docker tag · 重命名

指定架构拉取

ARM64 · AMD64 · 多架构

latest 与「最新」

digest · 版本号 · 标签

查看全部问题→

用户好评

来自真实用户的反馈,见证轩辕镜像的优质服务

用户头像

oldzhang

运维工程师

Linux服务器

5

"Docker访问体验非常流畅,大镜像也能快速完成下载。"

轩辕镜像
镜像详情
...
scpomedialab/hyphe_backend
教程轩辕镜像功能与使用教程
定价查看流量套餐与价格
热门查看热门 Docker 镜像推荐
博客Docker 镜像公告与技术博客
专业版 · 高速稳定拉取镜像
高速镜像下载·在线技术支持·99.95% SLA 保障·付费会员免广告
50GB 仅 ¥7/年
专业版 · 高速稳定拉取镜像
50GB 仅 ¥7/年
高速镜像下载·在线技术支持·99.95% SLA 保障·付费会员免广告
用户协议·隐私政策·增值电信业务经营许可证:浙B2-20261007·©2024-2026 源码跳动©2024-2026 杭州源码跳动科技有限公司·商务合作:点击复制邮箱

更多 hyphe_backend 镜像推荐

scpomedialab/trajectories-of-engagement-api logo

scpomedialab/trajectories-of-engagement-api

scpomedialab
暂无描述
1万+ 次下载
2 年前更新
scpomedialab/hyphe_frontend logo

scpomedialab/hyphe_frontend

scpomedialab
带有内置探索和控制Web界面的网站爬虫
2 次收藏1万+ 次下载
9 个月前更新
scpomedialab/scpo-experts-search logo

scpomedialab/scpo-experts-search

scpomedialab
暂无描述
864 次下载
1 年前更新
scpomedialab/goji-server logo

scpomedialab/goji-server

scpomedialab
暂无描述
732 次下载
3 年前更新

查看更多 hyphe_backend 相关镜像