热门搜索:

ghcr.iolinux/amd64v0.4.0-cu128-amd64大小: 未知更新于 2026年5月29日

`FastKoko`

Kokoro-82M文本转语音模型的Docker化FastAPI封装器

兼容OpenAI的语音端点，支持多语言
英语（US/GB）、西班牙语、法语、印地语、意大利语、日语、巴西葡萄牙语、普通话
逐词带时间戳的字幕生成，支持加权组合的语音混合
音素端点：从文本生成音素，或从音素生成音频
预构建的多平台镜像
CPU和NVIDIA GPU（CUDA）：linux/amd64 + linux/arm64
AMD GPU（ROCm，实验性）：仅linux/amd64
通过UV直接运行时支持Apple Silicon（MPS）（无镜像）

集成指南

快速开始

最快开始（docker run）

预构建的多架构镜像，已内置模型。

:latest 标签可用，但为确保稳定使用，请固定到发布标签。

您的硬件	镜像
无GPU（任何笔记本电脑、VPS、纯CPU服务器）	`kokoro-fastapi-cpu:latest`
Apple Silicon（M1/M2/M3）	Docker中使用`kokoro-fastapi-cpu:latest`，或通过`./start-gpu_mac.sh`原生运行以支持MPS
NVIDIA GTX 9xx、10xx、20xx、30xx、40xx（x86_64）	`kokoro-fastapi-gpu:latest-cu126` 或 `kokoro-fastapi-gpu:latest`
NVIDIA RTX 50系列/Blackwell（x86_64）	`kokoro-fastapi-gpu:latest-cu128`
arm64架构NVIDIA设备（Jetson、GH200）	`kokoro-fastapi-gpu:latest`（内置cu129，上游无arm64架构cu126轮子）
AMD GPU	`kokoro-fastapi-rocm:latest`（实验性，仅amd64）

docker run -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-cpu:latest # CPU版
docker run --gpus all -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-gpu:latest # NVIDIA（x86_64或arm64）
docker run --gpus all -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-gpu:latest-cu128 # NVIDIA Blackwell/RTX 50系列
docker run --device=/dev/kfd --device=/dev/dri -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-rocm:latest # AMD版

通过环境变量进行配置，详见core/config.py。:latest和:latest-cu126标签指向同一个多架构镜像。

快速开始（docker compose）

安装先决条件，并使用Docker Compose启动服务（完整设置，包括UI）：

安装Docker
克隆仓库：

git clone https://github.com/remsky/Kokoro-FastAPI.git
cd Kokoro-FastAPI

cd docker/gpu # 用于NVIDIA GPU支持
# 或 cd docker/cpu # 用于CPU支持
# 或 cd docker/rocm # 用于AMD GPU（ROCm，实验性，仅amd64）
docker compose up --build

[!NOTE] Apple Silicon（M1/M2/M3）用户注意：Docker GPU镜像是仅支持CUDA的，无法在Apple Silicon上运行。使用Docker时，请使用docker/cpu。如需原生MPS（Apple GPU）加速，请通过UV直接运行./start-gpu_mac.sh。

# 模型将自动下载，如有需要也可手动下载：
python docker/scripts/download_model.py --output api/src/models/v1_0

# 或通过UV直接运行：
./start-gpu.sh # 用于GPU支持
./start-cpu.sh # 用于CPU支持

直接运行（通过uv）

安装先决条件（）：

安装astral-uv
如需要将其作为未知单词/声音的备用方案，请在系统中安装https://github.com/espeak-ng/espeak-ng%E3%80%82%E4%B8%8A%E6%B8%B8%E5%BA%93%E5%8F%AF%E8%83%BD%E4%BC%9A%E5%B0%9D%E8%AF%95%E5%A4%84%E7%90%86%E6%AD%A4%E9%97%AE%E9%A2%98%EF%BC%8C%E4%BD%86%E7%BB%93%E6%9E%9C%E5%90%84%E4%B8%8D%E7%9B%B8%E5%90%8C%E3%80%82
克隆仓库：

git clone https://github.com/remsky/Kokoro-FastAPI.git
cd Kokoro-FastAPI

如果尚未运行，请执行https://github.com/remsky/Kokoro-FastAPI/blob/master/docker/scripts/download_model.py

通过UV直接启动（带热重载）

Linux和macOS

./start-cpu.sh 或
./start-gpu.sh

Windows

.\start-cpu.ps1 或
.\start-gpu.ps1

服务已启动？

作为兼容OpenAI的语音端点在本地运行

from openai import OpenAI

client = OpenAI(
base_url="http://localhost:8880/v1", api_key="not-needed"
)

with client.audio.speech.with_streaming_response.create(
model="kokoro",
voice="af_sky+af_bella", #单个或多个语音包组合
input="Hello world!"
) as response:
response.stream_to_file("output.mp3")

功能

兼容OpenAI的语音端点

# 使用OpenAI的Python库
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8880/v1", api_key="not-needed")
response = client.audio.speech.create(
model="kokoro",
voice="af_bella+af_sky", # 详见/api/src/core/openai_mappings.json进行自定义
input="Hello world!",
response_format="mp3"
)

response.stream_to_file("output.mp3")

或通过Requests：

import requests

response = requests.get("http://localhost:8880/v1/audio/voices")
voices = [v["id"] for v in response.json()["voices"]]

# 生成音频
response = requests.post(
"http://localhost:8880/v1/audio/speech",
json={
"model": "kokoro",
"input": "Hello world!",
"voice": "af_bella",
"response_format": "mp3", # 支持：mp3、wav、opus、flac
"speed": 1.0
}
)

# 保存音频
with open("output.mp3", "wb") as f:
f.write(response.content)

快速测试（从另一个终端运行）：

python examples/assorted_checks/test_openai/test_openai_tts.py # 测试OpenAI兼容性
python examples/assorted_checks/test_voices/test_all_voices.py # 测试所有可用语音

语音组合

使用比例进行加权语音组合（例如，"af_bella(2)+af_heart(1)"表示67%/33%的混合）
比例会自动归一化，总和为100%
通过在括号中添加权重，可在任何端点使用
保存生成的语音包供日后使用

组合语音并生成音频：

import requests
response = requests.get("http://localhost:8880/v1/audio/voices")
voices = [v["id"] for v in response.json()["voices"]]

# 示例1：简单语音组合（50%/50%混合）
response = requests.post(
"http://localhost:8880/v1/audio/speech",
json={
"input": "Hello world!",
"voice": "af_bella+af_sky", # 等权重
"response_format": "mp3"
}
)

# 示例2：加权语音组合（67%/33%混合）
response = requests.post(
"http://localhost:8880/v1/audio/speech",
json={
"input": "Hello world!",
"voice": "af_bella(2)+af_sky(1)", # 2:1比例=67%/33%
"response_format": "mp3"
}
)

# 示例3：将组合语音下载为.pt文件
response = requests.post(
"http://localhost:8880/v1/audio/voices/combine",
json="af_bella(2)+af_sky(1)" # 2:1比例=67%/33%
)

# 保存.pt文件
with open("combined_voice.pt", "wb") as f:
f.write(response.content)

# 使用下载的语音文件
response = requests.post(
"http://localhost:8880/v1/audio/speech",
json={
"input": "Hello world!",
"voice": "combined_voice", # 使用保存的语音文件
"response_format": "mp3"
}
)

多种输出音频格式

mp3
wav
opus
flac
m4a
pcm

流式支持

或者通过requests：

import requests

response = requests.post(
"http://localhost:8880/v1/audio/speech",
json={
"input": "Hello world!",
"voice": "af_bella",
"response_format": "pcm"
},
stream=True
)

for chunk in response.iter_content(chunk_size=1024):
if chunk:
# 处理流式数据块
pass

关键流式指标：

首令牌延迟 @ 块大小
~300ms（GPU）@ 400
~3500ms（CPU）@ 200（旧款i7）
~

处理详情

性能与基准测试

硬件变体

# GPU：需要支持CUDA 12.6+的NVIDIA驱动（~35x-100x实时速度）
cd docker/gpu
docker compose up --build

# CPU：PyTorch CPU推理
cd docker/cpu
docker compose up --build

# AMD GPU：ROCm 6.4（实验性，仅amd64架构）
cd docker/rocm
docker compose up --build

吞吐量

基准测试通过本地API生成文本长度达长篇书籍（~1.5小时输出），测量处理时间和实时因子。测试环境如下：

Windows 11 Home w/ WSL2
NVIDIA 4060Ti 16gb GPU @ CUDA 12.1
11代 i7-*** @ 2.5GHz
64gb RAM
WAV原生输出
H.G. Wells - 《时间机器》（全文）

关键性能指标：

实时速度：35x-100x（生成时间与输出音频长度比）
平均处理速率：137.67令牌/秒（cl100k_base）

转录往返测试（WER/CER）

端到端往返测试：使用Kokoro合成音频，通过https://github.com/SYSTRAN/faster-whisper%E5%B0%86%E7%BB%93%E6%9E%9C%E8%BD%AC%E5%BD%95%E5%9B%9E%E6%96%87%E6%9C%AC%EF%BC%8C%E4%B8%8E%E6%BA%90%E6%96%87%E6%9C%AC%E6%AF%94%E8%BE%83%E3%80%82%E8%84%9A%E6%9C%AC%E5%92%8C%E6%95%B0%E6%8D%AE%E4%BD%8D%E4%BA%8E%60examples/assorted_checks/test_transcription/%60%E7%9B%AE%E5%BD%95%E4%B8%8B%E3%80%82

长文本英文（全书《地心游记》，古腾堡计划，语音af_heart，CUDA float16上的base.en Whisper模型，基准数据采自cu126 GPU构建）：

测试	输入字符数	音频时长	合成加速比	转录加速比	WER
短篇（~第7章）	64,996	66分06秒	36.4x 实时	62.4x 实时	0.047
全书	502,766	507分52秒	45.7x 实时	65.1x 实时	0.033

详见examples/assorted_checks/test_transcription/BASELINE.md获取完整的回归区间。

按语言检查（每种语音单句，多语言Whisper small模型。拉丁文字使用WER，日语/中文/印地语使用CER）：

语言	语音	指标	得分
英语	`af_heart`	WER	0.000
英语（英国）	`bf_emma`	WER	0.111
西班牙语	`ef_dora`	WER	0.000
法语	`ff_siwis`	WER	0.000
意大利语	`if_sara`	WER	0.000
葡萄牙语	`pf_dora`	WER	0.000
印地语	`hf_alpha`	CER	0.059
日语	`jf_alpha`	CER	0.000
中文	`zf_xiaobei`	CER	0.143

注意：这些均为单句短句，并非全面的按语言质量基准测试。它们仅确认每个语音在目标语言中能生成可转录的音频；更深入的按语言质量评估仍在进行中。

如需复现，详见examples/assorted_checks/test_transcription/README.md。

自然边界检测

自动在句子边界处分割并拼接
有助于减少 artifacts，支持长文本处理（基础模型当前配置仅支持约30秒输出）

模型一次可处理最多510个音素化令牌块，但这通常会导致"急促"语音或其他artifacts。服务器中应用了额外的分块层，通过TARGET_MIN_TOKENS、TARGET_MAX_TOKENS和ABSOLUTE_MAX_TOKENS创建灵活块，这些参数可通过环境变量配置，默认值为175、250、450。

带时间戳的字幕与音素

生成带单词级时间戳的音频（非流式）：

import requests
import base64
import json

response = requests.post(
"http://localhost:8880/dev/captioned_speech",
json={
"model": "kokoro",
"input": "Hello world!",
"voice": "af_bella",
"speed": 1.0,
"response_format": "mp3",
"stream": False,
},
stream=False
)

with open("output.mp3","wb") as f:

audio_json=json.loads(response.content)

# 解码base64流为字节
chunk_audio=base64.b64decode(audio_json["audio"].encode("utf-8"))

# 处理流式数据块
f.write(chunk_audio)

# 打印单词级时间戳
print(audio_json["timestamps"])

生成带单词级时间戳的音频（流式）：

import requests
import base64
import json

response = requests.post(
"http://localhost:8880/dev/captioned_speech",
json={
"model": "kokoro",
"input": "Hello world!",
"voice": "af_bella",
"speed": 1.0,
"response_format": "mp3",
"stream": True,
},
stream=True
)

f=open("output.mp3","wb")
for chunk in response.iter_lines(decode_unicode=True):
if chunk:
chunk_json=json.loads(chunk)

# 解码base64流为字节
chunk_audio=base64.b64decode(chunk_json["audio"].encode("utf-8"))

# 处理流式数据块
f.write(chunk_audio)

# 打印单词级时间戳
print(chunk_json["timestamps"])

音素与令牌路由

将文本转换为音素和/或直接从音素生成音频：

import requests

def get_phonemes(text: str, language: str = "a"):
"""获取输入文本的音素和令牌"""
response = requests.post(
"http://localhost:8880/dev/phonemize",
json={"text": text, "language": language} # "a" 表示美式英语
)
response.raise_for_status()
result = response.json()
return result["phonemes"], result["tokens"]

def generate_audio_from_phonemes(phonemes: str, voice: str = "af_bella"):
"""从音素生成音频"""
response = requests.post(
"http://localhost:8880/dev/generate_from_phonemes",
json={"phonemes": phonemes, "voice": voice},
headers={"Accept": "audio/wav"}
)
if response.status_code != 200:
print(f"错误: {response.text}")
return None
return response.content

# 使用示例
text = "Hello world!"
try:
# 将文本转换为音素
phonemes, tokens = get_phonemes(text)
print(f"音素: {phonemes}") # 例如 ðɪs ɪz ˈoʊnli ɐ tˈɛst
print(f"令牌: {tokens}") # 包含起始/结束令牌的令牌ID

# 生成并保存音频
if audio_bytes := generate_audio_from_phonemes(phonemes):
with open("speech.wav", "wb") as f:
f.write(audio_bytes)
print(f"生成了 {len(audio_bytes)} 字节的音频")
except Exception as e:
print(f"错误: {e}")

已知问题与故障排除

缺失词语和部分时间戳

API 会自动对输入文本进行文本规范化，这可能会错误地移除或修改某些短语。可通过在请求 JSON 中添加 "normalization_options":{"normalize": false} 来禁用此功能：

import requests

response = requests.post(
"http://localhost:8880/v1/audio/speech",
json={
"input": "Hello world!",
"voice": "af_heart",
"response_format": "pcm",
"normalization_options":
{
"normalize": False
}
},
stream=True
)

for chunk in response.iter_content(chunk_size=1024):
if chunk:
# 处理流式数据块
pass

Linux GPU 权限问题

部分 Linux 用户以非 root 身份运行时可能会遇到 GPU 权限问题。无法保证以下解决方案适用于所有情况，但以下是一些常见解决方法，请仔细考虑您的安全需求。

选项 1：容器组（可能是最佳选项）

services:
kokoro-tts:
# ... 现有配置 ...
group_add:
- "video"
- "render"

选项 2：主机系统组

services:
kokoro-tts:
# ... 现有配置 ...
user: "${UID}:${GID}"
group_add:
- "video"

[!NOTE] 可能需要将主机用户添加到组中：sudo usermod -aG docker,video $USER 并重启系统。

选项 3：设备权限（谨慎使用）

services:
kokoro-tts:
# ... 现有配置 ...
devices:
- /dev/nvidia0:/dev/nvidia0
- /dev/nvidiactl:/dev/nvidiactl
- /dev/nvidia-uvm:/dev/nvidia-uvm

[!WARNING] 降低系统安全性。仅在开发环境中使用。

[!IMPORTANT] 前提条件：必须正确配置 NVIDIA GPU、驱动程序和容器工具包。有关更多详细信息，请访问 NVIDIA Container Toolkit 安装指南

WAV 时长在部分播放器中显示异常

WAV 响应的头部包含流式标记（0xFFFFFFFF）大小字段。大多数播放器（soundfile、pydub/ffmpeg、浏览器、操作系统播放器）均可正常处理，但 Python 标准库 wave 无法处理，会显示错误时长。请使用 soundfile.info(path).duration 或 ffprobe 获取准确时长。

项目信息

版本控制与开发

分支策略：

release 分支： 包含最新稳定版本，推荐用于生产环境。带有特定版本标签的 Docker 镜像从此分支构建。
master 分支： 用于活跃开发。可能包含实验性功能、进行中的更改或尚未纳入稳定版本的修复。如果需要最新代码，可使用此分支，但请注意其稳定性可能较低。latest Docker 标签通常指向从此分支构建的镜像。

[!NOTE] 本项目本质上是一个以开发为中心的项目。如果遇到问题，若出现意外情况，您可能需要回退到发布标签的某个版本，或从源代码构建和/或进行故障排除并提交 PR。自由开源是社区共同的努力，而一天的时间毕竟有限。如果您想支持本项目，欢迎提交 PR、请我喝杯咖啡，或报告使用过程中发现的任何错误/功能需求等。

模型

本 API 使用 HuggingFace 上的 Kokoro-82M 模型。访问模型页面了解有关训练、架构和功能的更多详细信息。我与该模型的开发工作无任何关联，开发此包装器是为了方便使用和个人项目。

许可证

本项目采用 Apache License 2.0 许可证 - 详情如下：

Kokoro 模型权重采用 Apache 2.0 许可证（参见模型页面）
本仓库中的 FastAPI 包装器代码为匹配模型许可证，同样采用 Apache 2.0 许可证
改编自 StyleTTS2 的推理代码采用 MIT 许可证

完整的 Apache 2.0 许可证文本可在以下地址获取：[***]

贡献者统计

使用 contrib.rocks 生成。

轩辕镜像配置手册

探索更多轩辕镜像的使用方法，找到最适合您系统的配置方式

Docker 配置

登录仓库拉取

通过 Docker 登录认证访问私有仓库

专属域名拉取

无需登录使用专属域名

K8s Containerd

Kubernetes 集群配置 Containerd

K3s

K3s 轻量级 Kubernetes 镜像加速

Dev Containers

VS Code Dev Containers 配置

Podman

Podman 容器引擎配置

Singularity/Apptainer

HPC 科学计算容器配置

其他仓库配置

ghcr、Quay、nvcr 等镜像仓库

Harbor 镜像源配置

Harbor Proxy Repository 对接专属域名

Portainer 镜像源配置

Portainer Registries 加速拉取

Nexus 镜像源配置

Nexus3 Docker Proxy 内网缓存

系统配置

Linux

在 Linux 系统配置镜像服务

Windows/Mac

在 Docker Desktop 配置镜像

MacOS OrbStack

MacOS OrbStack 容器配置

Docker Compose

Docker Compose 项目配置

NAS 设备

群晖

Synology 群晖 NAS 配置

飞牛

飞牛 fnOS 系统配置镜像

绿联

绿联 NAS 系统配置镜像

威联通

QNAP 威联通 NAS 配置

极空间

极空间 NAS 系统配置服务

网络设备

爱快路由

爱快 iKuai 路由系统配置

宝塔面板

在宝塔面板一键配置镜像

需要其他帮助？请查看我们的常见问题Docker 镜像访问常见问题解答或提交工单

镜像拉取常见问题

使用与功能问题

配置了专属域名后，docker search 为什么会报错？

docker search 限制

Docker Hub 上有的镜像，为什么在轩辕镜像网站搜不到？

站内搜不到镜像

机器不能直连外网时，怎么用 docker save / load 迁镜像？

离线 save/load

docker pull 拉插件报错（plugin v1+json）怎么办？

插件要用 plugin install

WSL 里 Docker 拉镜像特别慢，怎么排查和优化？

WSL 拉取慢

轩辕镜像安全吗？如何用 digest 校验镜像没被篡改？

安全与 digest

第一次用轩辕镜像拉 Docker 镜像，要怎么登录和配置？

新手拉取配置

轩辕镜像合规吗？轩辕镜像的合规是怎么做的？

镜像合规机制

轩辕镜像支持 docker push 上传本地镜像吗？

不支持 push

错误码与失败问题

docker pull 提示 manifest unknown 怎么办？

manifest unknown

docker pull 提示 no matching manifest 怎么办？

no matching manifest（架构）

镜像已拉取完成，却提示 invalid tar header 或 failed to register layer 怎么办？

invalid tar header（解压）

Docker pull 时 HTTPS / TLS 证书验证失败怎么办？

TLS 证书失败

Docker pull 时 DNS 解析超时或连不上仓库怎么办？

DNS 超时

docker 无法连接轩辕镜像域名怎么办？

域名连通性排查

Docker 拉取出现 410 Gone 怎么办？

410 Gone 排查

出现 402 或「流量用尽」提示怎么办？

402 与流量用尽

Docker 拉取提示 UNAUTHORIZED（401）怎么办？

401 认证失败

遇到 429 Too Many Requests（请求太频繁）怎么办？

429 限流

docker login 提示 Cannot autolaunch D-Bus，还算登录成功吗？

D-Bus 凭证提示

为什么会出现「单层超过 20GB」或 413，无法加速拉取？

413 与超大单层

账号 / 计费 / 权限

轩辕镜像免费版和专业版有什么区别？

免费版与专业版区别

轩辕镜像支持哪些 Docker 镜像仓库？

支持的镜像仓库

镜像拉取失败还会不会扣流量？

失败是否计费

麒麟 V10 / 统信 UOS 提示 KYSEC 权限不够怎么办？

KYSEC 拦截脚本

如何在轩辕镜像申请开具发票？

申请开票

怎么修改轩辕镜像的网站登录和仓库登录密码？

修改登录密码

如何注销轩辕镜像账户？要注意什么？

注销账户

配置与原理类

写了 registry-mirrors，为什么还是走官方或仍然报错？

mirrors 不生效

怎么用 docker tag 去掉镜像名里的轩辕域名前缀？

去掉域名前缀

如何拉取指定 CPU 架构的镜像（如 ARM64、AMD64）？

指定架构拉取

用轩辕镜像拉镜像时快时慢，常见原因有哪些？

拉取速度原因

为什么拉取镜像的 :latest 标签，拿到的往往不是「最新」镜像？

latest 与「最新」

查看全部问题→

用户好评

来自真实用户的反馈，见证轩辕镜像的优质服务

oldzhang

运维工程师

Linux服务器

"Docker访问体验非常流畅，大镜像也能快速完成下载。"