
本项目是一个基于FastAPI的XTTSv2服务器,灵感来源于https://github.com/ouoertheo/silero-api-server%EF%BC%8C%E5%B9%B6%E4%BD%BF%E7%94%A8https://github.com/coqui-ai/TTS%E6%A8%A1%E5%9E%8B%E3%80%82%E4%B8%BB%E8%A6%81%E4%B8%BAhttps://github.com/SillyTavern/SillyTavern%E8%AE%BE%E8%AE%A1%EF%BC%8C%E4%B9%9F%E5%8F%AF%E6%BB%A1%E8%B6%B3%E5%85%B6%E4%BB%96%E6%96%87%E6%9C%AC%E8%BD%AC%E8%AF%AD%E9%9F%B3%E9%9C%80%E6%B1%82%E3%80%82%E6%8F%90%E4%BE%9B%E8%AF%AD%E9%9F%B3%E5%85%8B%E9%9A%86%E3%80%81%E6%A8%A1%E5%9E%8B%E5%8A%A0%E9%80%9F%E3%80%81%E6%B5%81%E4%BC%A0%E8%BE%93%E7%AD%89%E5%8A%9F%E8%83%BD%EF%BC%8C%E6%94%AF%E6%8C%81%E8%87%AA%E5%AE%9A%E4%B9%89%E9%85%8D%E7%BD%AE%E5%92%8C%E6%89%A9%E5%B1%95%E3%80%82
默认启动命令(运行在localhost:8020):
bashpython -m xtts_api_server
使用DeepSpeed加速(提升2-3倍处理速度):
bashpython -m xtts_api_server --deepspeed
usage: xtts_api_server [-h] [-hs HOST] [-p PORT] [-d DEVICE] [-sf SPEAKER_FOLDER] [-o OUTPUT] [-mf MODELS_FOLDERS] [-t TUNNEL_URL] [-ms MODEL_SOURCE] [-v MODEL_VERSION] [--listen] [--use-cache] [--lowvram] [--deepspeed] [--streaming-mode] [--streaming-mode-improve] [--stream-play-sync]
主要参数说明:
-hs HOST, --host HOST: 指定主机地址-p PORT, --port PORT: 指定端口号-d DEVICE, --device DEVICE: 运行设备,可选cpu或cuda(可指定显卡如cuda:0)-sf SPEAKER_FOLDER, --speaker-folder: 说话人样本文件夹路径-o OUTPUT, --output: 音频输出文件夹-mf MODELS_FOLDERS, --model-folder: 模型存储文件夹,微调模型需存放于此-t TUNNEL_URL, --tunnel: 隧道URL(如***、localtunnel),用于生成说话人预览链接-ms MODEL_SOURCE, --model-source: 模型源,可选值:
local: 默认加载v2.0.2,可通过-v指定版本,使用XttsConfig和inferenceapiManual: 默认加载v2.0.2,可通过-v指定版本,使用TTS api的tts_to_file函数api: 加载最新模型,-v参数无效-v MODEL_VERSION, --version: 模型版本,与HuggingFace XTTS-v2分支名对应(如v2.0.2、v2.0.3、main等)--listen: 允许外部访问,等同于-hs 0.0.0.0--use-cache: 启用结果缓存,重复请求直接返回文件--lowvram: 低显存模式,模型存储在RAM,处理时移至VRAM--deepspeed: 启用DeepSpeed加速--streaming-mode: 启用基础流模式--streaming-mode-improve: 启用改进版流模式(需额外2GB显存,支持复杂语言)--stream-play-sync: 流模式同步播放,按队列顺序播放音频config.json、vocab.json、model.pth三个文件speakers文件夹,放入WAV格式语音样本访问 http://localhost:8020/docs 查看交互式API文档。
流模式可实现音频的快速生成和播放,但存在以下限制:
tts_to_audio端点,tts_to_file端点不工作(返回1秒静音)改进版流模式适用于中文、日语、印地语等复杂语言,或需要更多上下文处理语音的场景。
根据Reddit用户Material1276的建议:
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
docker search 限制
站内搜不到镜像
离线 save/load
插件要用 plugin install
WSL 拉取慢
安全与 digest
新手拉取配置
镜像合规机制
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
域名连通性排查
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务