FastKokoKokoro-82M 文本转语音模型的 Docker 化 FastAPI 封装
预构建的多架构镜像,已内置模型。
:latest 标签可用,但为确保稳定使用,请固定到发布标签。
| 硬件类型 | 镜像 |
|---|---|
| 无 GPU(任何笔记本电脑、VPS、纯 CPU 服务器) | kokoro-fastapi-cpu:latest |
| Apple Silicon(M1/M2/M3) | Docker 中使用 kokoro-fastapi-cpu:latest,或通过 ./start-gpu_mac.sh 原生运行以启用 MPS |
| NVIDIA GTX 9xx、10xx、20xx、30xx、40xx(x86_64) | kokoro-fastapi-gpu:latest-cu126 或 kokoro-fastapi-gpu:latest |
| NVIDIA RTX 50 系列 / Blackwell(x86_64) | kokoro-fastapi-gpu:latest-cu128 |
| arm64 架构 NVIDIA(Jetson、GH200) | kokoro-fastapi-gpu:latest(内置 cu129,上游无 cu126 arm64 轮包) |
| AMD GPU | kokoro-fastapi-rocm:latest(实验性,仅 x86_64) |
docker run -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-cpu:latest # CPU 版
docker run --gpus all -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-gpu:latest # NVIDIA(x86_64 或 arm64)
docker run --gpus all -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-gpu:latest-cu128 # NVIDIA Blackwell / RTX 50 系列
docker run --device=/dev/kfd --device=/dev/dri -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-rocm:latest # AMD
通过环境变量进行配置,详见 core/config.py。:latest 和 :latest-cu126 标签指向同一个多架构镜像。
git clone https://github.com/remsky/Kokoro-FastAPI.git
cd Kokoro-FastAPI
cd docker/gpu # 用于 NVIDIA GPU 支持
# 或 cd docker/cpu # 用于 CPU 支持
# 或 cd docker/rocm # 用于 AMD GPU(ROCm,实验性,仅 amd64)
docker compose up --build
#
> [!NOTE] Apple Silicon(M1/M2/M3)用户注意:
# Docker GPU 镜像是仅支持 CUDA 的,无法在 Apple Silicon 上运行。使用 Docker 时,请使用 `docker/cpu`。
# 如需原生 MPS(Apple GPU)加速,请通过 UV 直接运行 `./start-gpu_mac.sh`。
# 模型将自动下载,如有需要也可手动下载:
python docker/scripts/download_model.py --output api/src/models/v1_0
# 或通过 UV 直接运行:
./start-gpu.sh # 用于 GPU 支持
./start-cpu.sh # 用于 CPU 支持
git clone https://github.com/remsky/Kokoro-FastAPI.git
cd Kokoro-FastAPI
如果尚未下载模型,请运行 https://github.com/remsky/Kokoro-FastAPI/blob/master/docker/scripts/download_model.py
通过 UV 直接启动(支持热重载)
Linux 和 macOS
./start-cpu.sh 或
./start-gpu.sh
Windows
.\start-cpu.ps1 或
.\start-gpu.ps1
作为兼容 OpenAI 的语音端点在本地运行
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8880/v1", api_key="not-needed"
)
with client.audio.speech.with_streaming_response.create(
model="kokoro",
voice="af_sky+af_bella", #单个或多个语音包组合
input="Hello world!"
) as response:
response.stream_to_file("output.mp3")
# 使用 OpenAI Python 库
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8880/v1", api_key="not-needed")
response = client.audio.speech.create(
model="kokoro",
voice="af_bella+af_sky", # 详见 /api/src/core/openai_mappings.json 可自定义
input="Hello world!",
response_format="mp3"
)
response.stream_to_file("output.mp3")
或通过 Requests:
import requests
response = requests.get("http://localhost:8880/v1/audio/voices")
voices = [v["id"] for v in response.json()["voices"]]
# 生成音频
response = requests.post(
"http://localhost:8880/v1/audio/speech",
json={
"model": "kokoro",
"input": "Hello world!",
"voice": "af_bella",
"response_format": "mp3", # 支持格式:mp3, wav, opus, flac
"speed": 1.0
}
)
# 保存音频
with open("output.mp3", "wb") as f:
f.write(response.content)
快速测试(在另一个终端运行):
python examples/assorted_checks/test_openai/test_openai_tts.py # 测试 OpenAI 兼容性
python examples/assorted_checks/test_voices/test_all_voices.py # 测试所有可用语音
组合语音并生成音频:
import requests
response = requests.get("http://localhost:8880/v1/audio/voices")
voices = [v["id"] for v in response.json()["voices"]]
# 示例 1:简单语音组合(50%/50% 混合)
response = requests.post(
"http://localhost:8880/v1/audio/speech",
json={
"input": "Hello world!",
"voice": "af_bella+af_sky", # 等权重
"response_format": "mp3"
}
)
# 示例 2:带权重语音组合(67%/33% 混合)
response = requests.post(
"http://localhost:8880/v1/audio/speech",
json={
"input": "Hello world!",
"voice": "af_bella(2)+af_sky(1)", # 2:1 比例 = 67%/33%
"response_format": "mp3"
}
)
# 示例 3:下载组合语音为 .pt 文件
response = requests.post(
"http://localhost:8880/v1/audio/voices/combine",
json="af_bella(2)+af_sky(1)" # 2:1 比例 = 67%/33%
)
# 保存 .pt 文件
with open("combined_voice.pt", "wb") as f:
f.write(response.content)
# 使用下载的语音文件
response = requests.post(
"http://localhost:8880/v1/audio/speech",
json={
"input": "Hello world!",
"voice": "combined_voice", # 使用保存的语音文件
"response_format": "mp3"
}
)
# GPU:需要支持 CUDA 12.6+ 的 NVIDIA 驱动(约 35x-100x 实时速度)
cd docker/gpu
docker compose up --build
# CPU:PyTorch CPU 推理
cd docker/cpu
docker compose up --build
# AMD GPU:ROCm 6.4(实验性,仅支持 amd64)
cd docker/rocm
docker compose up --build
基准测试通过本地 API 进行生成,文本长度可达长篇书籍(约 1.5 小时输出),测量处理时间和实时因子。测试环境如下:
关键性能指标:
端到端往返测试:使用 Kokoro 合成音频,通过 https://github.com/SYSTRAN/faster-whisper 将结果转录回文本,与源文本比较。脚本和数据位于 examples/assorted_checks/test_transcription/。
长篇英文(整本书《地心游记》,古腾堡计划,语音 af_heart,CUDA float16 上的 base.en Whisper 模型,基准数据基于 cu126 GPU 构建捕获):
| 测试 | 输入字符数 | 音频长度 | 合成加速比 | 转录加速比 | WER |
|---|---|---|---|---|---|
| 短篇(约第7章) | 64,996 | 66分06秒 | 36.4x 实时 | 62.4x 实时 | 0.047 |
| 整本书 | 502,766 | 507分52秒 | 45.7x 实时 | 65.1x 实时 | 0.033 |
完整回归区间参见 examples/assorted_checks/test_transcription/BASELINE.md。
多语言检查(每种语音单句,多语言 Whisper small 模型。拉丁文字使用 WER,日语/中文/印地语使用 CER):
| 语言 | 语音 | 指标 | 分数 |
|---|---|---|---|
| 英语 | af_heart | WER | 0.000 |
| 英语(英国) | bf_emma | WER | 0.111 |
| 西班牙语 | ef_dora | WER | 0.000 |
| 法语 | ff_siwis | WER | 0.000 |
| 意大利语 | if_sara | WER | 0.000 |
| 葡萄牙语 | pf_dora | WER | 0.000 |
| 印地语 | hf_alpha | CER | 0.059 |
| 日语 | jf_alpha | CER | 0.000 |
| 中文 | zf_xiaobei | CER | 0.143 |
注意:这些是单句短文本测试,非全面的多语言质量基准。它们仅验证每种语音能生成目标语言的可转录音频;更深入的语言质量评估仍在进行中。
复现方法参见 examples/assorted_checks/test_transcription/README.md。
模型一次可处理最多 510 个音素化令牌块,但这通常会导致“语速过快”或其他 artifacts。服务器中额外应用了一层分块逻辑,通过 TARGET_MIN_TOKENS、TARGET_MAX_TOKENS 和 ABSOLUTE_MAX_TOKENS 创建灵活块,这些参数可通过环境变量配置,默认值分别为 175、250、450。
生成带词级时间戳的音频(非流式):
import requests
import base64
import json
response = requests.post(
"http://localhost:8880/dev/captioned_speech",
json={
"model": "kokoro",
"input": "Hello world!",
"voice": "af_bella",
"speed": 1.0,
"response_format": "mp3",
"stream": False,
},
stream=False
)
with open("output.mp3","wb") as f:
audio_json=json.loads(response.content)
# 解码 base64 流为字节
chunk_audio=base64.b64decode(audio_json["audio"].encode("utf-8"))
# 处理流式块
f.write(chunk_audio)
# 打印词级时间戳
print(audio_json["timestamps"])
生成带词级时间戳的音频(流式):
import requests
import base64
import json
response = requests.post(
"http://localhost:8880/dev/captioned_speech",
json={
"model": "kokoro",
"input": "Hello world!",
"voice": "af_bella",
"speed": 1.0,
"response_format": "mp3",
"stream": True,
},
stream=True
)
f=open("output.mp3","wb")
for chunk in response.iter_lines(decode_unicode=True):
if chunk:
chunk_json=json.loads(chunk)
# 解码 base64 流为字节
chunk_audio=base64.b64decode(chunk_json["audio"].encode("utf-8"))
# 处理流式块
f.write(chunk_audio)
# 打印词级时间戳
print(chunk_json["timestamps"])
将文本转换为音素和/或直接从音素生成音频:
import requests
def get_phonemes(text: str, language: str = "a"):
"""获取输入文本的音素和令牌"""
response = requests.post(
"http://localhost:8880/dev/phonemize",
json={"text": text, "language": language} # "a" 表示美式英语
)
response.raise_for_status()
result = response.json()
return result["phonemes"], result["tokens"]
def generate_audio_from_phonemes(phonemes: str, voice: str = "af_bella"):
"""从音素生成音频"""
response = requests.post(
"http://localhost:8880/dev/generate_from_phonemes",
json={"phonemes": phonemes, "voice": voice},
headers={"Accept": "audio/wav"}
)
if response.status_code != 200:
print(f"错误: {response.text}")
return None
return response.content
# 示例用法
text = "Hello world!"
try:
# 将文本转换为音素
phonemes, tokens = get_phonemes(text)
print(f"音素: {phonemes}") # 例如 ðɪs ɪz ˈoʊnli ɐ tˈɛst
print(f"令牌: {tokens}") # 包含起始/结束令牌的令牌 ID
# 生成并保存音频
if audio_bytes := generate_audio_from_phonemes(phonemes):
with open("speech.wav", "wb") as f:
f.write(audio_bytes)
print(f"生成了 {len(audio_bytes)} 字节的音频")
except Exception as e:
print(f"错误: {e}")
示例脚本可参见 examples/phoneme_examples/generate_phonemes.py。
通过以下端点监控系统状态和资源使用情况:
/debug/threads - 获取线程信息和堆栈跟踪/debug/storage - 监控临时文件和输出目录使用情况/debug/system - 获取系统信息(CPU、内存、GPU)有助于调试资源耗尽或性能问题。
可通过 API_LOG_LEVEL 环境变量设置全局 API 的 loguru 日志级别。默认为 DEBUG。
修改相应的 compose yml 文件或附加到命令行。
docker run --env 'API_LOG_LEVEL=WARNING' ...
export API_LOG_LEVEL=WARNING
./start-cpu.sh OR
./start-gpu.sh
$env:API_LOG_LEVEL = 'WARNING'
.\start-cpu.ps1 OR
.\start-gpu.ps1
API 会自动对输入文本进行文本规范化,这可能会错误地移除或更改某些短语。可通过在请求 JSON 中添加 "normalization_options":{"normalize": false} 来禁用此功能:
import requests
response = requests.post(
"http://localhost:8880/v1/audio/speech",
json={
"input": "Hello world!",
"voice": "af_heart",
"response_format": "pcm",
"normalization_options":
{
"normalize": False
}
},
stream=True
)
for chunk in response.iter_content(chunk_size=1024):
if chunk:
# Process streaming chunks
pass
部分 Linux 用户以非 root 身份运行时可能会遇到 GPU 权限问题。无法保证解决所有问题,但以下是一些常见解决方案,请仔细考虑您的安全要求。
services:
kokoro-tts:
# ... existing config ...
group_add:
- "video"
- "render"
services:
kokoro-tts:
# ... existing config ...
user: "${UID}:${GID}"
group_add:
- "video"
[!NOTE] 可能需要将主机用户添加到组中:
sudo usermod -aG docker,video $USER并重启系统。
services:
kokoro-tts:
# ... existing config ...
devices:
- /dev/nvidia0:/dev/nvidia0
- /dev/nvidiactl:/dev/nvidiactl
- /dev/nvidia-uvm:/dev/nvidia-uvm
[!WARNING] 降低系统安全性。仅在开发环境中使用。
[!IMPORTANT] 前提条件:必须正确配置 NVIDIA GPU、驱动程序和容器工具包。
有关更多详细信息,请访问 NVIDIA Container Toolkit 安装指南。
WAV 响应的头部包含流式标记(0xFFFFFFFF)大小字段。大多数读取器(soundfile、pydub/ffmpeg、浏览器、操作系统播放器)均可正常处理。Python 标准库 wave 无法处理,会显示错误的时长。使用 soundfile.info(path).duration 或 ffprobe 获取准确长度。
分支策略:
release 分支: 包含最新稳定版本,推荐用于生产环境。特定版本标签的 Docker 镜像从此分支构建。master 分支: 用于活跃开发。可能包含实验性功能、进行中的更改或尚未纳入稳定版本的修复。如果需要最新代码,可使用此分支,但请注意其稳定性可能较低。latest Docker 标签通常指向从此分支构建的镜像。[!NOTE] 本项目本质上是一个以开发为中心的项目。
如果遇到问题,若出现异常情况,您可能需要回退到发布标签中的某个版本,或从源代码构建和/或进行故障排除并提交 PR。
自由开源是社区共同的努力,而一天的时间毕竟有限。如果您想支持本项目,欢迎提交 PR、请我喝杯咖啡,或报告使用过程中发现的任何错误/功能需求等。
本 API 使用 HuggingFace 上的 Kokoro-82M 模型。
有关训练、架构和功能的更多详细信息,请访问模型页面。我与该模型的开发工作无任何关联,开发此包装器仅为方便使用和个人项目。
本项目采用 Apache License 2.0 许可证 - 详情如下:
完整的 Apache 2.0 许可证文本可在以下地址获取:[***]
使用 contrib.rocks 生成。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
docker search 限制
站内搜不到镜像
离线 save/load
插件要用 plugin install
WSL 拉取慢
安全与 digest
新手拉取配置
镜像合规机制
不支持 push
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
域名连通性排查
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务