
本镜像提供了Max Bain开发的https://github.com/m-bain/whisperX%E5%B7%A5%E5%85%B7%E7%9A%84%E5%AE%B9%E5%99%A8%E5%8C%96%E9%83%A8%E7%BD%B2%E6%96%B9%E6%A1%88%E3%80%82%E5%9F%BA%E4%BA%8EUbuntu 22.10基础镜像构建,内置Python 3.10及PyTorch等必要依赖,可直接用于语音识别任务,支持CPU和GPU两种运行模式。
适用于需要进行语音转文字的各类场景,包括但不限于:
CPU版本适合轻量级任务或无GPU环境,CUDA版本需配备Nvidia GPU,提供更高性能。
bashdocker run -it --rm -v /path/to/audio_files:/app thomasvvugt/whisperx:cpu recording.mp3 --batch_size 4 --compute_type int8
参数说明:
-v /path/to/audio_files:/app:将本地音频文件目录挂载到容器内的/app目录recording.mp3:待处理的音频文件(需位于挂载目录中)--batch_size 4:批处理大小,可根据CPU性能调整--compute_type int8:计算类型,int8适合CPU环境以提高效率注意:需配备Nvidia GPU硬件,性能远高于CPU模式
bashdocker run -it --rm --gpus all -v /path/to/audio_files:/app thomasvvugt/whisperx:cuda118 recording.mp3 --batch_size 8 --diarize --hf_token YOUR_HUGGINGFACE_READ_TOKEN
参数说明:
--gpus all:启用所有GPU设备--batch_size 8:GPU模式下可使用更大的批处理大小--diarize:启用说话人分离功能--hf_token YOUR_HUGGINGFACE_READ_TOKEN:Hugging Face访问令牌(需提前在Hugging Face网站获取)可使用Docker Hub上的预构建镜像,或自行构建:
bash# 构建CPU版本 docker build -f Dockerfile.cpu -t whisperx:cpu # 构建CUDA 11.8版本 docker build -f Dockerfile.cuda118 -t whisperx:cuda118




探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务