
genomenexus/gn-mongoGenome Nexus Data Importer 用于为 Genome Nexus 应用设置 Mongo 数据库,提供数据导入功能和数据生成管道。无需手动生成数据,data 文件夹已包含多种参考基因组和 Ensembl 版本的预生成数据。该镜像基于 Bitnami 的 MongoDB 镜像构建,当前安装的 MongoDB 版本为 4.0.12。
data 文件夹适用于 Genome Nexus 应用的数据库部署,包括:
可直接使用 Genome Nexus 仓库中的 Docker Compose 文件启动包含 Web 应用和数据库的容器。具体操作请参考:genome nexus。
运行 scripts/import_mongo.sh 脚本可将数据导入运行中的数据库。执行脚本时需指定以下参数:
MONGO_URI:Mongo 数据库地址,例如 mongodb://127.0.0.1:27017/annotatorREF_ENSEMBL_VERSION:参考基因组和 Ensembl 版本,例如 grch37_ensembl92 或 grch38_ensembl92,数据将从 data/<refgenome_ensemblversion>/export/ 导入示例:
bashMONGO_URI="mongodb://127.0.0.1:27017/annotator" REF_ENSEMBL_VERSION="grch37_ensembl92" ./scripts/import_mongo.sh
本仓库包含数据生成管道,可检索指定参考基因组和 Ensembl 版本的数据,生成的数据保存于 data/ 目录。生成过程会创建并填充以下目录:
data/<refgenome_ensemblversion>/input:从 Ensembl Biomart 检索的输入表格data/<refgenome_ensemblversion>/export:管道输出,供 MongoDB 使用data/<refgenome_ensemblversion>/tmp:临时文件(不被 Git 跟踪)数据生成管道依赖 Python 和 R 环境,需安装以下依赖:
bashcd scripts pip install -r requirements.txt
bashR -e "source('[***] biocLite('biomaRt')"
执行以下命令启动数据生成管道(需数小时完成):
bashcd data make all \ VERSION=grch37_ensembl92 \ GFF3_URL=[***]
VERSION:参考基因组和 Ensembl 版本标识,如 grch37_ensembl92GFF3_URL:GFF3 文件的 FTP 地址,需根据参考基因组和 Ensembl 版本调整(示例见 Makefile)若管道因外部服务(如 Ensembl REST API)故障中断,可能生成空文件。需删除空文件后重新运行 make all 继续管道执行。
若 Ensembl REST API 响应缓慢,可通过 QSIZE 参数减小单次查询的转录本数量(默认 1000,示例设为 100):
bashmake all \ VERSION=grch37_ensembl92 \ GFF3_URL=[***] \ QSIZE=100
可通过检查 export/ensembl_biomart_transcripts.json.gz 中的外显子坐标验证数据正确性:选择一个 Ensembl 外显子 ID,在 Ensembl GRCh38 或 GRCh37 数据库中查询对应基因和转录本的外显子坐标进行比对。
可处理小鼠数据以构建小鼠数据库,详情参见 此处。
生成新数据后,可创建 Pull Request 提交至 Genome-Nexus 仓库,将新数据合并到主分支。
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务