fish-speech-ziming:基于 Fish Speech 1.5 的多语言 TTS Docker 镜像,开箱即用,支持中文/英语/日语等 8 种语言文本到语音、语音克隆与 LoRA 微调;推理≥4GB 显存可用,集成 PyTorch 与依赖,提供 WebUI 与 API 模式。
收藏数: 2
下载次数: 362623
类型:

guiji2025/fish-speech-zimingfish-speech-ziming 镜像基于 Fish Speech 1.5 构建,继承其多语言支持、低显存需求与高自然度合成等特性,并针对环境配置痛点进行优化,避免官方脚本可能导致的环境混乱。
| 功能场景 | 显存要求 | 其他要求 |
|---|---|---|
| 基础推理(随机音色) | ≥4GB | NVIDIA 显卡(CUDA 12.x),硬盘预留 ≥20GB(含模型与数据) |
| 语音克隆推理 | ≥6GB | — |
| 模型微调(LoRA) | ≥8GB | — |
nvidia-docker2。bashdocker pull xuanyuan.cloud/r/guiji2025/fish-speech-ziming:latest
建议将模型与数据目录挂载到宿主机,避免容器重建后数据丢失。
bashdocker run -d \ --name fish-speech-ziming \ --gpus all \ -p 7862:7862 \ -v /宿主机/模型路径:/app/checkpoints \ -v /宿主机/数据路径:/app/data \ xuanyuan.cloud/r/guiji2025/fish-speech-ziming:latest
参数说明:--gpus all 允许容器使用所有 GPU;-v 为目录挂载,/宿主机路径 请替换为实际本地路径。
bashdocker run -d \ --name fish-speech-api \ --gpus all \ -p 8000:8000 \ -v /宿主机/模型路径:/app/checkpoints \ xuanyuan.cloud/r/guiji2025/fish-speech-ziming:latest \ --api --port 8000
bashdocker ps | grep fish-speech-ziming docker logs -f fish-speech-ziming
若日志出现 “Gradio UI launched at [***]
容器启动后可在容器内下载官方模型,或在宿主机手动下载后挂载:
bash# 进入容器 docker exec -it fish-speech-ziming /bin/bash # 下载 Fish Speech 1.5 预训练模型 huggingface-cli download fishaudio/fish-speech-1.5 --local-dir /app/checkpoints/fish-speech-1.5
国内下载缓慢时,可手动从 Hugging Face 获取后解压到宿主机挂载的
/宿主机/模型路径。
浏览器访问 http://localhost:7862,支持随机音色与语音克隆两种模式。
/app/checkpoints/fish-speech-1.5。参考音频需尽量无噪声;文本匹配度越高,克隆效果越自然。建议单段文本 ≤500 字。
.lab 文件,内容为对应纯文本。目录结构示例:
data/ ├── train/ │ ├── audio1.wav │ ├── audio1.lab │ ├── audio2.wav │ └── audio2.lab └── val/ ├── val1.wav └── val1.lab
bash# 进入容器 docker exec -it fish-speech-ziming /bin/bash # 执行 LoRA 微调 python tools/finetune.py \ --model-path /app/checkpoints/fish-speech-1.5 \ --data-dir /app/data \ --output-dir /app/checkpoints/lora-finetuned \ --lora-r 8 \ --batch-size 4 \ --epochs 10
参数说明:--lora-r 越小显存占用越低;--batch-size 视显存调整(8GB 显存建议 4)。
在 WebUI “模型配置”中选择 /app/checkpoints/lora-finetuned。
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
| 启动提示 GPU access denied | 未安装 nvidia-docker2 或驱动不兼容 | 安装 nvidia-docker2;使用 nvidia-smi 检查 CUDA 版本 ≥12.1 |
| 模型下载缓慢/失败 | 网络限制 | 使用国内镜像或手动下载后挂载 |
| 微调显存不足报错 | batch-size 过大或 LoRA 秩过高 | 降低 batch-size 至 2/1;将 --lora-r 降至 4;加 --gradient-accumulation-steps 2 |
| Triton 加速报错找不到 CUDA | 加速组件与 CUDA 不匹配 | 暂时禁用 Triton 加速,移除相关参数 |
容器内可安装 PyQt6 GUI:
bashpip install fish-speech-gui fish-speech-gui
Windows 建议通过 VNC 显示 GUI;Linux 可用 X11 转发。
在宿主机创建脚本并挂载到容器:
python# batch_synthesis.py from fish_speech.inference import TextToSpeech import os # 初始化 TTS 引擎 tts = TextToSpeech(model_path="/app/checkpoints/fish-speech-1.5") # 批量处理文本文件(每行一段文本) with open("/app/data/texts.txt", "r", encoding="utf-8") as f: texts = f.readlines() # 生成音频并保存 for i, text in enumerate(texts): text = text.strip() if not text: continue audio = tts.synthesize(text, speed=1.0) with open(f"/app/data/output/audio_{i}.wav", "wb") as f: f.write(audio) print("批量合成完成!")
容器内执行:
bashpython /app/data/batch_synthesis.py
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 版本下载页面。

manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务