
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
VerifyBamID2是一款用于从测序数据中估计DNA污染的工具,旨在解决现有方法中因等位基因频率分配不准确导致的污染水平低估问题。其核心价值在于采用不依赖祖先信息的DNA污染估计方法,显著降低不同人群(如CEU、YRI、FIN、CHS)的污染低估偏差(从20%-73%降至2-5%),是NGS数据分析中确保测序质量和下游分析可靠性的关键质量评估工具。
bashdocker pull griffan/verifybamid2
处理GRCh37对齐的BAM/CRAM文件
bashdocker run -v /本地路径/数据目录:/VerifyBamID/数据目录 griffan/verifybamid2:v1.0.6 VerifyBamID \ --SVDPrefix /VerifyBamID/resource/1000g.100k.b37.vcf.gz.dat \ --Reference /VerifyBamID/数据目录/human_g1k_v37.fasta.gz \ --BamFile /VerifyBamID/数据目录/目标样本.bam
处理GRCh38对齐的BAM/CRAM文件
bashdocker run -v /本地路径/数据目录:/VerifyBamID/数据目录 griffan/verifybamid2:v1.0.6 VerifyBamID \ --SVDPrefix /VerifyBamID/resource/1000g.100k.b38.vcf.gz.dat \ --Reference /VerifyBamID/数据目录/GRCh38_full_analysis_set_plus_decoy_hla.fa \ --BamFile /VerifyBamID/数据目录/目标样本.cram
| 参数 | 类型 | 描述 | 是否必需 | 默认值 |
|---|---|---|---|---|
| --SVDPrefix | String | SVD相关文件前缀(通常共享.UD、.mu和.bed文件) | 是 | - |
| --BamFile | String | 样本的BAM或CRAM文件路径 | 是 | - |
| --Reference | String | 参考基因组FASTA文件路径 | 是 | - |
| --Seed | INT | 随机数种子 | 否 | *** |
| --NumPC | INT | 用于估计的主成分数量 | 否 | - |
| --NumThread | Int | 似然计算的线程数 | 否 | 4 |
| --FixPC | String | 指定样本已知的PC坐标(格式:PC1:PC2:PC3...) | 否 | - |
| --FixAlpha | Double | 指定已知的污染水平 | 否 | - |
| --WithinAncestry | Bool | 假设目标样本和污染来源来自同一人群 | 否 | false(默认跨人群) |
| --KnownAF | String | 提供每个标记的已知等位基因频率的Bed文件 | 否 | - |
| --Epsilon | Double | 最小化过程的收敛阈值 | 否 | 1e-10 |
| --OutputPileup | Bool | 是否输出临时pileup文件 | 否 | - |
| --Verbose | Bool | 是否在屏幕上打印进度 | 否 | - |
| --RefVCF | String | 用于生成.UD、.mu、.bed文件的参考面板VCF(含基因型信息) | 否 | - |
| --no-orphans | Bool | 跳过异常读对(标记为测序配对但无正确配对标志) | 否 | - |
| --adjust-MQ | Int | 因过多错配降低映射质量的系数(BWA推荐50) | 否 | 40 |
| --max-depth | Int | 覆盖深度限制(0表示无限制) | 否 | 8000 |
| --incl-flags | Int | 必需标志(跳过未设置掩码位的读段) | 否 | null |
| --excl-flags | Int | 过滤标志(跳过设置掩码位的读段) | 否 | UNMAP,SECONDARY,QCFAIL,DUP |
控制台输出示例
Estimation from OptimizeHeter: Contaminating Sample PC1:-0.623602 PC2:0.57292 Intended Sample PC1:-0.036304 PC2:0.0200112 Alpha:0.0013662
输出文件
.selfSM:与VerifyBamID 1.0格式兼容,关键信息FREEMIX表示估计的污染水平.Ancestry:包含目标样本和污染样本的PC坐标,每行对应一个PC使用参考VCF文件生成自定义资源文件(.UD、.mu、.bed):
bashdocker run -v /本地路径/资源目录:/VerifyBamID/资源目录 griffan/verifybamid2:v1.0.6 VerifyBamID \ --RefVCF /VerifyBamID/资源目录/ReferencePanel.vcf.gz \ --Reference /VerifyBamID/资源目录/chr20.fa.gz
生成文件:ReferencePanel.vcf.gz.UD、ReferencePanel.vcf.gz.mu、ReferencePanel.vcf.gz.bed
使用提供的脚本生成PC散点图,背景点可选用1000 Genomes或HGDP样本:
bashdocker run -v /本地路径/结果目录:/VerifyBamID/结果目录 griffan/verifybamid2:v1.0.6 sh /VerifyBamID/bin/run.plot.sh \ -i /VerifyBamID/resource/1000g.100k.b38.vcf.gz.dat.V \ -o /VerifyBamID/结果目录/pc_plot \ -r 1000g \ -g grey
查看帮助:sh /VerifyBamID/bin/run.plot.sh -h
Fan Zhang, et al. 2020. "Ancestry-agnostic estimation of DNA sample contamination from sequence reads." Genome Research. [***]
联系***:***
MIT许可证
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务