staphb/ncbi-datasetsNCBI Datasets镜像是基于NCBI(美国国家生物技术信息中心)官方工具的Docker封装,旨在为生物信息学研究人员、开发者提供便捷的跨NCBI数据库数据收集能力。该镜像集成了NCBI Datasets命令行工具,支持从GenBank、RefSeq、SRA、PubMed等NCBI核心数据库中快速获取标准化的生物数据,简化数据获取流程,提升科研效率。
bashdocker pull ncbi/datasets:latest
可通过指定标签使用特定版本,如
ncbi/datasets:16.24
bashdocker run --rm ncbi/datasets datasets --help
bash# 创建本地目录存储数据 mkdir -p ./ncbi_data # 下载人类(taxon ID: 9606)参考基因组数据 docker run --rm -v $(pwd)/ncbi_data:/data ncbi/datasets \ datasets download genome taxon 9606 \ --reference \ --output /data/human_genome.zip
参数说明:
--rm:容器退出后自动删除-v $(pwd)/ncbi_data:/data:挂载本地目录./ncbi_data到容器内/data路径,用于数据持久化genome taxon 9606:指定下载分类单元ID为9606(人类)的基因组数据--reference:仅下载参考基因组--output:指定输出文件路径
bashdocker run --rm -v $(pwd)/ncbi_data:/data ncbi/datasets \ datasets download gene gene-id 1017 \ --include protein \ --output /data/gene_1017_protein.zip
gene-id 1017对应人类TP53基因
bashdocker run --rm -v $(pwd)/ncbi_data:/data ncbi/datasets \ datasets download sra accession SRR*** SRR*** \ --output /data/sra_data.zip
NCBI_API_KEY:若需提高NCBI API调用频率限制,可设置该变量(需从NCBI账户获取)
bashdocker run --rm -e NCBI_API_KEY="your_api_key" ncbi/datasets ...
为避免重复下载和数据丢失,建议始终通过-v参数挂载本地目录至容器内固定路径(如/data),示例:
bash-v /path/to/local/data:/data
--delay参数设置请求间隔(单位:秒)latestmanifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务