
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
MMseqs2(Many-against-Many sequence searching)是一款用于搜索和聚类大型蛋白质与核苷酸序列集的软件套件。该软件采用C++实现,开源且基于GPL许可,支持Linux、MacOS及(测试版,通过cygwin)Windows系统。其设计支持多核心和服务器运行,具有出色的可扩展性。MMseqs2速度可达BLAST的***倍,在100倍速度下仍能保持接近的灵敏度;进行轮廓搜索时,灵敏度与PSI-BLAST相当,但速度快400多倍。
bashdocker pull soedinglab/mmseqs2
1. 序列聚类
提供easy-cluster(级联聚类)和easy-linclust(线性时间聚类)两种工作流。
easy-cluster(级联聚类):
bashmmseqs easy-cluster input.fasta cluster_result tmp_dir --min-seq-id 0.5 -c 0.8 --cov-mode 1
--min-seq-id 0.5:最小序列一致性为50%-c 0.8:最小覆盖率为80%--cov-mode 1:覆盖率计算模式(1=全局覆盖)easy-linclust(线性时间聚类,适用于超大数据集):
bashmmseqs easy-linclust input.fasta cluster_result tmp_dir
2. 序列搜索
使用easy-search工作流直接处理FASTA/FASTQ文件,或预构建索引加速重复搜索。
直接搜索:
bashmmseqs easy-search query.fasta target.fasta alignment_result.m8 tmp_dir
预构建索引(适用于重复搜索同一数据库):
bash# 创建目标数据库 mmseqs createdb target.fasta targetDB # 构建索引 mmseqs createindex targetDB tmp_dir # 搜索 mmseqs easy-search query.fasta targetDB alignment_result.m8 tmp_dir
搜索公共数据库(如Swiss-Prot):
bash# 下载并设置Swiss-Prot数据库 mmseqs databases UniProtKB/Swiss-Prot swissprot tmp_dir # 搜索 mmseqs easy-search query.fasta swissprot alignment_result.m8 tmp_dir
灵敏度调整:通过-s参数控制,范围1.0(快速)至7.0(高灵敏度):
bashmmseqs easy-search query.fasta targetDB alignment_result.m8 tmp_dir -s 5.0
自定义输出格式:使用--format-output指定输出列(如查询ID、目标ID、比对结果):
bashmmseqs easy-search query.fasta targetDB alignment_result.m8 tmp_dir --format-output "query,target,qaln,taln"
3. 分类学分配
使用easy-taxonomy工作流对序列进行分类学标签分配:
bash# 创建目标数据库 mmseqs createdb target.fasta targetDB # 创建分类学数据库(默认下载NCBI taxonomy) mmseqs createtaxdb targetDB tmp_dir # 构建索引 mmseqs createindex targetDB tmp_dir # 执行分类学分配 mmseqs easy-taxonomy query.fasta targetDB tax_result tmp_dir
支持自定义分类学数据库(如BLAST数据库、SILVA、用户自定义数据库),详见https://github.com/soedinglab/mmseqs2/wiki%E3%80%82
--compress标志压缩数据库,DNA序列压缩比约3.5倍,蛋白质约1.7倍--split-memory-limit参数控制内存使用,自动拆分数据库以适应内存需编译时启用MPI支持(添加-DHAVE_MPI=1),通过RUNNER环境变量指定MPI命令:
bashRUNNER="mpirun -pernode -np 42" mmseqs search queryDB targetDB resultDB tmp_dir
(注:预编译静态版本不支持MPI,需自行编译)
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务