人类序列读取移除工具(HRRT)基于SRA Taxonomy Analysis Tool,可接收fastq文件作为输入,生成fastq.clean文件作为输出,其中所有被识别为潜在人类来源的序列读取均被替换为'N'。源代码文件和更新日志可在https://github.com/ncbi/sra-human-scrubber%E8%8E%B7%E5%8F%96%E3%80%82
适用于下一代测序(NGS)数据处理流程中,需要从非人类样本的fastq文件中去除或屏蔽人类序列污染的场景,如微生物组测序、环境样本测序等研究中,确保数据分析不受人类序列干扰。
为使容器能够访问本地文件,需在docker run命令中挂载本地工作目录以实现读写操作。具体参数说明:
-v $PWD:$PWD:rw:将当前工作目录(Unix系统变量$PWD)挂载到容器内相同路径,具有读写权限(容器需读取输入fastq文件并写入输出fastq.clean文件及中间文件)-w $PWD:将当前工作目录设置为容器内的工作目录-it:以交互模式运行容器并分配tty接口测试调用
执行以下命令进行测试:
bashdocker run -it -v $PWD:$PWD:rw -w $PWD ncbi/sra-human-scrubber:latest /opt/scrubber/scripts/scrub.sh test
测试输出示例:
2022-09-06 21:18:26 aligns_to version 0.707 2022-09-06 21:18:26 hardware threads: 8, omp threads: 8 2022-09-06 21:18:26 loading time (sec) 0 2022-09-06 21:18:26 /tmp/tmp.AtEXSJWJDw/temp.fasta 2022-09-06 21:18:26 FastaReader 2022-09-06 21:18:26 100% processed 2022-09-06 21:18:26 total spot count: 2 2022-09-06 21:18:26 total read count: 2 2022-09-06 21:18:26 total time (sec) 0 1 spot(s) masked or removed. test succeeded
从fastq文件屏蔽人类序列读取
执行以下命令处理本地fastq文件,将文件路径作为参数传入:
bashdocker run -it -v $PWD:$PWD:rw -w $PWD ncbi/sra-human-scrubber:latest /opt/scrubber/scripts/scrub.sh path-to-fastq-file/filename.fastq
示例:
bashdocker run -it -v $PWD:$PWD:rw -w $PWD ncbi/sra-human-scrubber:latest /opt/scrubber/scripts/scrub.sh MyFastqFile.fastq
处理输出示例:
2022-09-06 21:35:04 aligns_to version 0.707 2022-09-06 21:35:04 hardware threads: 8, omp threads: 8 2022-09-06 21:35:04 loading time (sec) 0 2022-09-06 21:35:04 /tmp/tmp.Ccqruccyoq/temp.fasta 2022-09-06 21:35:04 FastaReader 2022-09-06 21:35:04 0% processed 2022-09-06 21:35:06 100% processed 2022-09-06 21:35:06 total spot count: 216859 2022-09-06 21:35:06 total read count: 216859 2022-09-06 21:35:06 total time (sec) 2 129 spot(s) masked or removed.
处理后文件列表:
bash$ ls -l -rw-r--r-- 1 78656910 Sep 6 21:34 MyFastqFile.fastq -rw-r--r-- 1 78656910 Sep 6 21:35 MyFastqFile.fastq.clean
默认情况下,工具会使用所有可用线程(可通过-p选项设置线程数)。
其他可用选项
执行以下命令查看所有选项:
bashdocker run -it -v $PWD:$PWD:rw -w $PWD ncbi/sra-human-scrubber:latest /opt/scrubber/scripts/scrub.sh -h
选项说明:
Usage: scrub.sh [OPTIONS] [file.fastq] OPTIONS: -i <input_file>; 输入Fastq文件。 -o <output_file>; 将清理后的序列读取保存到文件,或设为'-'表示标准输出。 注意:当使用标准输入时,默认输出为标准输出。 -p <number> 使用的线程数。 -d <database_path>; 指定非默认数据库路径。 -x ; 移除序列读取而非默认的'N'替换。 注意:默认情况下,识别出的序列读取长度会被替换为'N'。 -r ; 将识别出的序列读取保存到<input_file>.spots_removed。 -u <user_named_file>; 将识别出的序列读取保存到<user_named_file>。 注意:当输出为标准输出时,-r选项需要配合此参数使用,否则为可选。 -t ; 运行测试。 -s ; 输入为(合并的)interleaved双端读取文件,且希望双端读取同时被屏蔽或移除。 -h ; 显示此帮助信息。




探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务