
dublok/whisperdock本仓库托管Docker容器化的语音转文本转录服务,该服务利用Whisper C++结合Python提供音频文件转录API接口。
在快速发展的机器学习领域,获取高效且稳定的日常应用工具至关重要。语音转文本转录是取得显著进步的领域之一,但这些模型的快速高效部署仍面临挑战。Whisper C++作为高性能转录工具已成为强大选择,但其仍需简化的部署流程。
本仓库的创建旨在弥合语音转文本模型开发与实际应用部署之间的差距。许多现有解决方案需要大量设置和复杂的系统知识,部署耗时,为希望将转录功能集成到服务中的开发者、研究人员和企业造成障碍。
语音转文本转录服务旨在提供一个快速、可靠且易用的Whisper C++模型部署解决方案。通过Docker容器化该服务,我们显著降低了部署复杂性,使可扩展且易于访问的转录服务能够快速启动。
以下是该项目的主要动机:
如需快速部署,可使用Docker仓库中提供的镜像。
最新稳定版:
bashdocker pull dublok/whisperdock:latest docker run -p 5000:5000 dublok/whisperdock:latest
每日构建版(不稳定但可抢先体验新功能):
bashdocker pull dublok/whisperdock:main docker run -p 5000:5000 dublok/whisperdock:main
服务启动后可通过 http://localhost:5000 访问。
bashgit clone [***]
bashdocker build -t whisperdock .
bashdocker run -p 5000:5000 whisperdock
要转录音频,向 /transcribe 端点发送包含音频文件的POST请求:
bashcurl -X POST -F 'file=@/path/to/your/audio.wav' http://localhost:5000/transcribe
确保音频文件为WAV格式,采样率为16kHz。
转录成功后,服务将返回包含转录文本及各段时间戳的JSON响应。示例响应如下:
json{ "transcription": [ { "start_time": "00:00:00.000", "end_time": "00:00:03.000", "text": "欢迎使用我们的语音转文本服务。" }, { "start_time": "00:00:03.500", "end_time": "00:00:05.000", "text": "这是一个转录示例。" } ] }
若转录出错,服务将返回错误响应:
json{ "error": "转录过程出错" }
应用中需适当处理成功和错误响应。
仓库中的 Dockerfile 详细说明了设置环境和安装转录服务所需依赖的步骤。
欢迎贡献!如果您希望贡献代码,请提交包含建议更改或修复的拉取请求。
本项目使用GitHub Actions进行持续集成,自动执行以下任务:
sync-whisper.yml:同步whisper.cpp的最新标签或提交。publish-docker.yml:在代码变更时自动构建并推送Docker镜像到仓库。本语音转文本转录服务基于 CC0 1.0 通用公共领域授权 开放。
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务