
本镜像集成了whisperx运行所需的完整环境及模型(包括whisperx(large-v3)及对齐模型),为自动语音识别(ASR)提供高效解决方案。它不仅实现高速度语音文本转换(large-v2模型达70倍实时转录速度),还能提供单词级精确时间戳及说话人识别功能,解决了原生Whisper时间戳精度不足、不支持批处理等问题。
版本v1.0(带Jupyter Lab)
shelldocker run --restart=always --gpus all -itd -p 60691:8081 -e "LANG=C.UTF-8" \ --name jupyterlab_whisperX -v /data:/workspace/work \ -e SHELL=/bin/bash \ zhangkaifang/whisperx:v1.0 \ jupyter lab --allow-root --port='8081' --ip='*' --notebook-dir='/workspace/work'
说明:
-e SHELL=/bin/bash用于避免终端仅显示#符号;-v /data:/workspace/work将本地/data目录挂载到容器内工作目录
版本v3.0.0
shelldocker run -itd --restart=always --gpus all -p 60691:8888 -v /data:/workspace --hostname whisperx --name whisperx zhangkaifang/whisperx:v3.0.0
在容器内执行以下命令进行语音识别:
shellwhisperx './zxQyTK8quyY.wav' --model large-v3 --output_dir . --initial_prompt "ChatGPT, LLM, OpenAI, Llama, Claude, DALL-E, Mistral, transformer" --align_model WAV2VEC2_ASR_LARGE_LV60K_960H
参数说明:
--model:指定使用的模型(如large-v3)--output_dir:输出目录--initial_prompt:初始提示文本,帮助模型优化特定领域词汇识别--align_model:指定对齐模型




探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务