
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
chromBPNet Docker镜像是一个预配置的生物信息学工具容器,封装了用于染色质可及性分析的深度学习模型——chromBPNet。该模型基于偏置分解(bias factorized)架构,以碱基分辨率(base-resolution)预测和解释染色质可及性信号,核心解决传统分析中技术偏置与生物信号混淆的问题,适用于ATAC-seq、DNase-seq等染色质可及性数据的深度解析。
通过分离序列内在偏置(如DNA剪切偏好)和生物信号(如转录因子结合),提高染色质可及性预测的准确性和可解释性。
以单碱基精度输出染色质可及性得分,支持高分辨率的基因组区域分析(如转录因子结合位点、增强子核心区域)。
基于卷积神经网络(CNN)和注意力机制设计,支持从原始DNA序列和实验数据中学习特征,兼容多种染色质可及性测序数据格式。
内置预训练模型,支持模型微调(fine-tuning),可针对特定细胞类型、组织或实验条件优化预测性能。
从容器 registry 拉取镜像(假设镜像托管于 ghcr.io):
bashdocker pull ghcr.io/kundajelab/chrombpnet:latest
4.2.1 核心分析流程(预测染色质可及性)
bashdocker run -it --rm \ -v /path/to/local/data:/data \ # 挂载本地数据目录(含输入文件和输出路径) -v /path/to/genome/fasta:/genome \ # 挂载参考基因组FASTA文件(如hg38、mm10) ghcr.io/kundajelab/chrombpnet:latest \ chrombpnet predict \ --input /data/input_regions.bed \ # 输入BED文件(待分析的基因组区域) --genome /genome/hg38.fa \ # 参考基因组FASTA路径 --model /opt/chrombpnet/models/pretrained_hg38 \ # 预训练模型路径(容器内默认路径) --output /data/prediction_results/ \ # 输出目录(挂载的本地路径) --batch-size 32 \ # 批处理大小(根据硬件调整) --cuda # 若宿主机有GPU且支持CUDA,添加此参数启用GPU加速
4.2.2 模型微调(针对自定义数据)
bashdocker run -it --rm \ -v /path/to/training_data:/train \ # 挂载训练数据(含BED、FASTA、峰值文件) -v /path/to/output_models:/models \ # 挂载模型输出目录 ghcr.io/kundajelab/chrombpnet:latest \ chrombpnet train \ --train-data /train/train_data.h5 \ # 训练数据(HDF5格式,含输入序列和可及性标签) --val-data /train/val_data.h5 \ # 验证数据 --genome /genome/hg38.fa \ --initial-model /opt/chrombpnet/models/pretrained_hg38 \ # 初始预训练模型 --output-dir /models/custom_model \ # 微调后模型保存路径 --epochs 50 \ # 训练轮数 --learning-rate 1e-4 # 学习率
4.3.1 输入数据格式
.fai,与FASTA同目录)sequence(one-hot编码DNA序列)、target(可及性信号)字段4.3.2 核心参数说明
| 参数 | 用途 | 默认值 |
|---|---|---|
--input | 输入BED文件路径(预测模式) | 无(必填) |
--genome | 参考基因组FASTA路径 | 无(必填) |
--model | 预训练模型路径(预测模式) | /opt/chrombpnet/models/default |
--output | 输出目录路径 | ./output |
--batch-size | 批处理大小(影响内存占用) | 32 |
--cuda | 是否使用GPU加速 | False(默认CPU) |
适用于需要持久化数据和模型的场景,创建 docker-compose.yml:
yamlversion: '3' services: chrombpnet: image: ghcr.io/kundajelab/chrombpnet:latest volumes: - ./local_data:/data # 本地数据目录(输入/输出) - ./genome:/genome # 参考基因组目录 - ./models:/opt/chrombpnet/models # 自定义模型目录(覆盖默认预训练模型) command: > chrombpnet predict --input /data/regions.bed --genome /genome/hg38.fa --model /opt/chrombpnet/models/custom_pretrained --output /data/results --cuda deploy: resources: reservations: devices: - driver: nvidia count: 1 # 使用1块GPU capabilities: [gpu]
运行命令:docker-compose up
容器支持通过环境变量配置默认参数,优先级低于命令行参数:
| 环境变量 | 用途 | 示例值 |
|---|---|---|
GENOME_PATH | 默认参考基因组FASTA路径 | /genome/hg38.fa |
MODEL_PATH | 默认模型路径 | /opt/chrombpnet/models/custom |
OUTPUT_DIR | 默认输出目录 | /data/output |
CUDA_VISIBLE_DEVICES | GPU设备编号(多GPU场景) | 0(使用第1块GPU) |
.bigWig(信号轨道)和 .bed(峰值调用结果),位于 --output 指定目录./models:/opt/chrombpnet/models)可替换默认预训练模型chromBPNet Docker镜像为染色质可及性的深度解析提供了便捷工具,通过偏置分解和碱基分辨率预测,助力研究者从表观遗传数据中高效提取生物信号。容器化设计简化了环境配置,适用于各类基因组学研究场景。
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务