kundajelab/chrombpnet

kundajelab

提供偏差分解的碱基分辨率染色质可及性深度学习模型（chromBPNet），用于染色质可及性研究。

下载次数: 0状态：社区镜像维护者：kundajelab仓库类型：镜像最近更新：1 个月前

让 AI 帮你使用轩辕镜像？ · 展开查看说明 · 点击收起说明

如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具，协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题，请先让 AI 阅读并遵守轩辕镜像的规则文档。

只需在 AI 对话中先发送下面这句话即可：

请先完整阅读并严格遵守以下文档中的全部规则与要求：

https://xuanyuan.cloud/agents.md

在未充分阅读并理解该文档前，不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。

查看 agents.md 用法指南与完整示范。国内用户首推元宝 AI、DeepSeek 的深度思考模式，不推荐豆包 AI；Cursor 等编辑器可在对话 @ 该链接，或加入 User Rules。若 AI 无法访问外链，可打开说明文档复制全文粘贴。文档会随站点更新，复制内容可能过期，建议定期检查。

镜像标签列表与下载命令

chromBPNet Docker镜像文档

1. 镜像概述和主要用途

chromBPNet Docker镜像是一个预配置的生物信息学工具容器，封装了用于染色质可及性分析的深度学习模型——chromBPNet。该模型基于偏置分解（bias factorized）架构，以碱基分辨率（base-resolution）预测和解释染色质可及性信号，核心解决传统分析中技术偏置与生物信号混淆的问题，适用于ATAC-seq、DNase-seq等染色质可及性数据的深度解析。

2. 核心功能与特性

2.1 偏置分解架构

通过分离序列内在偏置（如DNA剪切偏好）和生物信号（如转录因子结合），提高染色质可及性预测的准确性和可解释性。

2.2 碱基分辨率预测

以单碱基精度输出染色质可及性得分，支持高分辨率的基因组区域分析（如转录因子结合位点、增强子核心区域）。

2.3 深度学习模型

基于卷积神经网络（CNN）和注意力机制设计，支持从原始DNA序列和实验数据中学习特征，兼容多种染色质可及性测序数据格式。

2.4 多场景适配

内置预训练模型，支持模型微调（fine-tuning），可针对特定细胞类型、组织或实验条件优化预测性能。

3. 使用场景与适用范围

3.1 研究领域

表观遗传学：分析染色质开放区域的调控机制
基因组学：预测和解释转录因子结合位点、增强子/启动子活性
计算生物学：建模染色质可及性数据中的技术偏置（如Tn5转座酶偏好）

3.2 目标用户

生物信息学研究者
计算生物学家
表观遗传实验团队（需基础Linux命令操作能力）

3.3 典型应用场景

从ATAC-seq数据中区分生物信号与技术偏置
预测未测序细胞类型的染色质可及性图谱
解释非编码区变异（如eQTL、GWAS位点）的表观遗传机制
验证转录因子结合 motif 的功能显著性

4. 使用方法和配置说明

4.1 获取镜像

从容器 registry 拉取镜像（假设镜像托管于 ghcr.io）：

bash
docker pull ghcr.io/kundajelab/chrombpnet:latest

4.2 基本运行命令

4.2.1 核心分析流程（预测染色质可及性）

bash
docker run -it --rm \
  -v /path/to/local/data:/data \  # 挂载本地数据目录（含输入文件和输出路径）
  -v /path/to/genome/fasta:/genome \  # 挂载参考基因组FASTA文件（如hg38、mm10）
  ghcr.io/kundajelab/chrombpnet:latest \
  chrombpnet predict \
    --input /data/input_regions.bed \  # 输入BED文件（待分析的基因组区域）
    --genome /genome/hg38.fa \  # 参考基因组FASTA路径
    --model /opt/chrombpnet/models/pretrained_hg38 \  # 预训练模型路径（容器内默认路径）
    --output /data/prediction_results/ \  # 输出目录（挂载的本地路径）
    --batch-size 32 \  # 批处理大小（根据硬件调整）
    --cuda  # 若宿主机有GPU且支持CUDA，添加此参数启用GPU加速

4.2.2 模型微调（针对自定义数据）

bash
docker run -it --rm \
  -v /path/to/training_data:/train \  # 挂载训练数据（含BED、FASTA、峰值文件）
  -v /path/to/output_models:/models \  # 挂载模型输出目录
  ghcr.io/kundajelab/chrombpnet:latest \
  chrombpnet train \
    --train-data /train/train_data.h5 \  # 训练数据（HDF5格式，含输入序列和可及性标签）
    --val-data /train/val_data.h5 \  # 验证数据
    --genome /genome/hg38.fa \
    --initial-model /opt/chrombpnet/models/pretrained_hg38 \  # 初始预训练模型
    --output-dir /models/custom_model \  # 微调后模型保存路径
    --epochs 50 \  # 训练轮数
    --learning-rate 1e-4  # 学习率

4.3 配置说明

4.3.1 输入数据格式

区域文件：BED格式（chr, start, end），定义待分析的基因组区域
参考基因组：FASTA格式（需含索引文件 .fai，与FASTA同目录）
训练数据：HDF5格式，需包含 sequence（one-hot编码DNA序列）、target（可及性信号）字段

4.3.2 核心参数说明

参数	用途	默认值
`--input`	输入BED文件路径（预测模式）	无（必填）
`--genome`	参考基因组FASTA路径	无（必填）
`--model`	预训练模型路径（预测模式）	`/opt/chrombpnet/models/default`
`--output`	输出目录路径	`./output`
`--batch-size`	批处理大小（影响内存占用）	32
`--cuda`	是否使用GPU加速	False（默认CPU）

4.4 Docker Compose配置示例

适用于需要持久化数据和模型的场景，创建 docker-compose.yml：

yaml
version: '3'
services:
  chrombpnet:
    image: ghcr.io/kundajelab/chrombpnet:latest
    volumes:
      - ./local_data:/data  # 本地数据目录（输入/输出）
      - ./genome:/genome    # 参考基因组目录
      - ./models:/opt/chrombpnet/models  # 自定义模型目录（覆盖默认预训练模型）
    command: >
      chrombpnet predict
        --input /data/regions.bed
        --genome /genome/hg38.fa
        --model /opt/chrombpnet/models/custom_pretrained
        --output /data/results
        --cuda
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1  # 使用1块GPU
              capabilities: [gpu]

运行命令：docker-compose up

5. 环境变量说明

容器支持通过环境变量配置默认参数，优先级低于命令行参数：

环境变量	用途	示例值
`GENOME_PATH`	默认参考基因组FASTA路径	`/genome/hg38.fa`
`MODEL_PATH`	默认模型路径	`/opt/chrombpnet/models/custom`
`OUTPUT_DIR`	默认输出目录	`/data/output`
`CUDA_VISIBLE_DEVICES`	GPU设备编号（多GPU场景）	`0`（使用第1块GPU）

6. 注意事项

数据预处理：输入BED区域建议控制长度在100-1000bp（模型最优输入范围），过长区域需拆分
硬件要求：CPU模式适合小批量数据（<10k区域），大规模分析需GPU支持（建议显存≥12GB）
输出文件：预测结果包含 .bigWig（信号轨道）和 .bed（峰值调用结果），位于 --output 指定目录
模型更新：通过挂载自定义模型目录（如 ./models:/opt/chrombpnet/models）可替换默认预训练模型

6. 总结

chromBPNet Docker镜像为染色质可及性的深度解析提供了便捷工具，通过偏置分解和碱基分辨率预测，助力研究者从表观遗传数据中高效提取生物信号。容器化设计简化了环境配置，适用于各类基因组学研究场景。

镜像拉取方式

您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本，请访问标签列表页面。

轩辕镜像加速拉取命令点我查看更多 chrombpnet 镜像标签

docker pull docker.xuanyuan.run/kundajelab/chrombpnet:<标签>

使用方法：

DockerHub 原生拉取命令

docker pull kundajelab/chrombpnet:<标签>

轩辕镜像配置手册

按平台快速找到配置文档

Docker

登录仓库拉取

登录认证 · 私有仓库

专属域名拉取

免登录 · 高速拉取

Linux

Docker 镜像配置

Windows / Mac

Docker Desktop 配置

MacOS OrbStack

OrbStack 容器

Docker Compose

Compose 项目配置

NAS

群晖

Synology 配置

飞牛

fnOS 镜像配置

绿联

绿联 NAS

威联通

QNAP 配置

极空间

极空间 NAS

企业仓库

其他仓库

ghcr · Quay · nvcr

Harbor 镜像源

Proxy Repository 对接

Portainer 镜像源

Registries 配置

Nexus 镜像源

Docker Proxy 缓存

开发工具

Dev Containers

VS Code 开发容器

Podman

Podman 配置指南

Singularity / Apptainer

HPC 科学计算容器

Kubernetes

K8s Containerd

Kubernetes · Containerd

K3s

轻量级集群

面板 / 网络

爱快路由

iKuai 镜像加速

宝塔面板

一键配置镜像源

AI

用 AI 使用轩辕镜像

agents.md · AI 对话 · 提示词

一键安装

一键安装 Docker

Linux Docker 一键安装

需要其他帮助？请查看我们的常见问题Docker 镜像访问常见问题解答或提交工单

镜像拉取常见问题

功能

免费版与专业版区别

功能对比 · 版本选择

支持的镜像仓库

Docker Hub · GCR · GHCR

新手拉取配置

docker search 限制

专属域名 · Hub 搜索

不支持 push

仅支持 pull · 不支持

拉取速度原因

带宽 · 缓存 · 冷热镜像

错误码

402 与流量用尽

402 · 流量包 · 充值

401 认证失败

401 · docker login

manifest unknown

标签错误 · 镜像不存在

410 Gone 排查

410 · Docker 升级

429 限流

免费版 · 请求频率

其他报错

DNS 超时

DNS 解析 · 网络超时

TLS 证书失败

no matching manifest（架构）

账号

失败是否计费

manifest · blob · 计费

申请开发票（企业 / 个人）

企业 · 个人 · 工单

修改登录密码

网站 · 仓库 · 重置

注销账户

工单 · 数据 · 注销

原理

mirrors 不生效

daemon.json · 重启

去掉域名前缀

docker tag · 重命名

指定架构拉取

ARM64 · AMD64 · 多架构

latest 与「最新」

digest · 版本号 · 标签

查看全部问题→

用户好评

来自真实用户的反馈，见证轩辕镜像的优质服务

oldzhang

运维工程师

Linux服务器

"Docker访问体验非常流畅，大镜像也能快速完成下载。"

请先完整阅读并严格遵守以下文档中的全部规则与要求： https://xuanyuan.cloud/agents.md 在未充分阅读并理解该文档前，不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。

bash

docker run -it --rm \
  -v /path/to/local/data:/data \  # 挂载本地数据目录（含输入文件和输出路径）
  -v /path/to/genome/fasta:/genome \  # 挂载参考基因组FASTA文件（如hg38、mm10）
  ghcr.io/kundajelab/chrombpnet:latest \
  chrombpnet predict \
    --input /data/input_regions.bed \  # 输入BED文件（待分析的基因组区域）
    --genome /genome/hg38.fa \  # 参考基因组FASTA路径
    --model /opt/chrombpnet/models/pretrained_hg38 \  # 预训练模型路径（容器内默认路径）
    --output /data/prediction_results/ \  # 输出目录（挂载的本地路径）
    --batch-size 32 \  # 批处理大小（根据硬件调整）
    --cuda  # 若宿主机有GPU且支持CUDA，添加此参数启用GPU加速

bash

docker run -it --rm \
  -v /path/to/training_data:/train \  # 挂载训练数据（含BED、FASTA、峰值文件）
  -v /path/to/output_models:/models \  # 挂载模型输出目录
  ghcr.io/kundajelab/chrombpnet:latest \
  chrombpnet train \
    --train-data /train/train_data.h5 \  # 训练数据（HDF5格式，含输入序列和可及性标签）
    --val-data /train/val_data.h5 \  # 验证数据
    --genome /genome/hg38.fa \
    --initial-model /opt/chrombpnet/models/pretrained_hg38 \  # 初始预训练模型
    --output-dir /models/custom_model \  # 微调后模型保存路径
    --epochs 50 \  # 训练轮数
    --learning-rate 1e-4  # 学习率

参数

用途

默认值

--input

输入BED文件路径（预测模式）

无（必填）

--genome

参考基因组FASTA路径

无（必填）

--model

预训练模型路径（预测模式）

/opt/chrombpnet/models/default

--output

输出目录路径

./output

--batch-size

批处理大小（影响内存占用）

--cuda

是否使用GPU加速

False（默认CPU）

yaml

version: '3'
services:
  chrombpnet:
    image: ghcr.io/kundajelab/chrombpnet:latest
    volumes:
      - ./local_data:/data  # 本地数据目录（输入/输出）
      - ./genome:/genome    # 参考基因组目录
      - ./models:/opt/chrombpnet/models  # 自定义模型目录（覆盖默认预训练模型）
    command: >
      chrombpnet predict
        --input /data/regions.bed
        --genome /genome/hg38.fa
        --model /opt/chrombpnet/models/custom_pretrained
        --output /data/results
        --cuda
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1  # 使用1块GPU
              capabilities: [gpu]

环境变量

用途

示例值

GENOME_PATH

默认参考基因组FASTA路径

/genome/hg38.fa

MODEL_PATH

默认模型路径

/opt/chrombpnet/models/custom

OUTPUT_DIR

默认输出目录

/data/output

CUDA_VISIBLE_DEVICES

GPU设备编号（多GPU场景）

0（使用第1块GPU）

镜像拉取方式

您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本，请访问标签列表页面。