Fish Speech官方容器镜像,用于部署和运行Fish Speech语音处理相关应用,提供官方支持的标准化运行环境。
收藏数: 12
下载次数: 61413
类型:

fishaudio/fish-speechFish Speech(现更名为OpenAudio)是一个开源的多语言文本转语音(TTS)工具,支持语音克隆功能。该Docker镜像提供了便捷的部署方式,让用户能够快速体验和集成高质量的文本转语音技术。OpenAudio系列模型在TTS-Arena2基准测试中排名第一,具备卓越的语音合成质量和多语言支持能力。
OpenAudio S1模型在Seed TTS评估指标中表现优异,在英文文本上实现了0.008 WER(词错误率)和0.004 CER(字符错误率),显著优于先前模型。
| 模型 | 词错误率 (WER) | 字符错误率 (CER) | 说话人相似度 |
|---|---|---|---|
| S1 | 0.008 | 0.004 | 0.332 |
| S1-mini | 0.011 | 0.005 | 0.380 |
支持多种情感、语调和特殊标记来增强语音合成:
| 模型 | 大小 | 可用性 | 特点 |
|---|---|---|---|
| S1 | 4B参数 | fish.audio | 全功能旗舰模型 |
| S1-mini | 0.5B参数 | Hugging Face | 精简版,保留核心功能 |
bashdocker run -p 7860:7860 --name fish-speech fishaudio/fish-speech
访问 http://localhost:7860 即可使用Web界面。
bashdocker run --gpus all -p 7860:7860 --name fish-speech fishaudio/fish-speech
bashdocker run -d --gpus all -p 7860:7860 --name fish-speech fishaudio/fish-speech
创建 docker-compose.yml 文件:
yamlversion: '3.8' services: fish-speech: image: fishaudio/fish-speech container_name: fish-speech restart: unless-stopped ports: - "7860:7860" # Web UI端口 - "5000:5000" # API端口 volumes: - ./data:/app/data # 数据持久化 - ./models:/app/models # 模型文件 environment: - MODEL_TYPE=s1-mini # 模型类型: s1 或 s1-mini - ENABLE_API=true # 启用API服务 - CORS_ALLOWED_ORIGINS=* # CORS设置 deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu]
启动服务:
bashdocker-compose up -d
| 环境变量 | 说明 | 默认值 | 可选值 |
|---|---|---|---|
MODEL_TYPE | 模型类型选择 | s1-mini | s1, s1-mini |
ENABLE_WEBUI | 是否启用Web UI | true | true, false |
ENABLE_API | 是否启用API服务 | false | true, false |
WEBUI_PORT | Web UI端口 | 7860 | 1-65535 |
API_PORT | API服务端口 | 5000 | 1-65535 |
CORS_ALLOWED_ORIGINS | CORS允许的源 | * | 具体域名或* |
LOG_LEVEL | 日志级别 | info | debug, info, warning, error |
MAX_BATCH_SIZE | 最大批处理大小 | 4 | 正整数 |
CACHE_DIR | 缓存目录 | /app/cache | 容器内路径 |
为避免每次启动重新下载模型,可以将模型目录挂载到宿主机:
bashdocker run --gpus all -p 7860:7860 \ -v ./fish-speech-models:/app/models \ --name fish-speech fishaudio/fish-speech
启用API后,可以通过HTTP请求调用TTS服务:
bashcurl -X POST http://localhost:5000/tts \ -H "Content-Type: application/json" \ -d '{ "text": "你好,这是Fish Speech的API示例。", "speaker_id": 0, "emotion": "neutral", "speed": 1.0, "pitch": 0.0 }' --output output.wav
声明:我们不对代码库的任何非法使用承担责任。请参考当地关于DMCA和其他相关的规定。
bibtex@misc{fish-speech-v1.4, title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis}, author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing}, year={2024}, eprint={2411.01156}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={[***]}, }
以下是 fishaudio/fish-speech 相关的常用 Docker 镜像,适用于 不同场景 等不同场景:
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 版本下载页面。
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务