热门搜索:

ghcr.iolinux/amd64medium-lv大小: 未知更新于 2026年5月23日

docker-whisperX

这是社区为 https://github.com/m-bain/whisperX 构建的 Docker 镜像。

本项目旨在每周在 GitHub Free 运行器 上高效管理持续集成 Docker 构建工作流。该工作流包括并行构建 175 个 Docker 镜像，每个镜像大小为 10GB。为确保平稳运行，我专注于高效利用 Docker 层缓存、最大化层复用、精心管理缓存读写顺序以避免问题，并优化以最小化镜像大小和构建时间。

此外，出于个人偏好，我致力于尽最大努力遵循最佳实践、行业标准和政策。

可在 https://github.com/jim60105/docker-whisperX 获取 Dockerfile，或从 ghcr.io 拉取镜像。

🚀 准备支持 GPU 的 Docker 环境

Windows

安装 Docker Desktop、CUDA Toolkit、NVIDIA Windows Driver 并确保 Docker 以 WSL2 模式运行后，即可就绪。

有关更多参考，请查阅官方文档。

Linux、OSX

如果尚未安装 NVIDIA GPU 驱动，请先安装。

按照此指南安装 NVIDIA Container Toolkit。

[!TIP] 我有一篇关于此主题的中文博客： Fedora/RHEL 的 Podman GPU 配置笔记

📦 可用的预构建镜像

[!NOTE] 这些镜像中的 WhisperX 代码库与 git 子模块的提交哈希保持一致。我设置了 https://github.com/jim60105/docker-whisperX/actions/workflows/submodule_update.yml%EF%BC%8C%E6%AF%8F%E5%91%A8%E8%BF%90%E8%A1%8C%E4%BB%A5%E9%92%88%E5%AF%B9 https://github.com/m-bain/whisperX/tree/main 重建所有 Docker 镜像。

docker run --gpus all -it -v ".:/app" ghcr.io/jim60105/whisperx:base-en -- --output_format srt audio.mp3
docker run --gpus all -it -v ".:/app" ghcr.io/jim60105/whisperx:large-v3-ja -- --output_format srt audio.mp3
docker run --gpus all -it -v ".:/app" ghcr.io/jim60105/whisperx:no_model -- --model tiny --language en --output_format srt audio.mp3

镜像标签格式为 WHISPER_MODEL-LANG，例如 tiny-en、base-de 或 large-v3-zh。请注意，Whisper 模型 *.en、large-v1、large-v2 已被排除，因为我认为它们不常使用。如果需要这些模型，请参考以下部分自行构建。

可在 04-build-matrix-images.yml 中查看实际构建矩阵，并在 https://github.com/jim60105/docker-whisperX/pkgs/container/whisperx/versions?filters%5Bversion_type%5D=tagged 查看所有可用标签。

此外，还有一个 no_model 标签（也称为 latest），不包含任何预下载模型。

`distil-large-v3-en` 模型

large-v3 的蒸馏变体，由 HuggingFace 发布为 distil-whisper/distil-large-v3。该模型拥有 7.56 亿参数，约为 OpenAI large-v3（15.5 亿参数）的一半大小（约小 51%），相对延迟快 6.3 倍，同时在长音频的顺序和分块转录算法下，WER 仍与 large-v3 相差不超过 1%——是纯英文批量工作负载的理想选择。

由于蒸馏 Whisper 模型设计为仅支持英文，因此仅发布英文（en）语言版本。可通过 ghcr.io/jim60105/whisperx:distil-large-v3-en 拉取。

`breeze-asr-26-zh` 模型

联发科研究院发布的*闽南语（台语）ASR 模型，原模型为 MediaTek-Research/Breeze-ASR-26，经 paulpengtw/faster-whisper-Breeze-ASR-26 重新打包以支持 faster-whisper 运行时。该模型基于 Whisper 在约 10,000 小时合成台语语音（包括台语/普通话代码切换）上微调，将台语语音转录为汉字**，利用两种语言之间的大量词汇重叠实现实用、可复现的基准测试工作流。

由于输出脚本为中文，此镜像以 zh 语言版本发布。可通过 ghcr.io/jim60105/whisperx:breeze-asr-26-zh 拉取。

[!NOTE] 转录真实台语音频时，音素级对齐将无法工作——捆绑的 zh wav2vec2 对齐模型基于普通话语音学训练，无法可靠地将台语发音与模型的汉字输出对齐。对于台语输入，请传递 --no_align 跳过对齐步骤，例如 docker run ... ghcr.io/jim60105/whisperx:breeze-asr-26-zh -- --no_align audio.mp3。

⚡️ 为多语言场景保留对齐模型的下载缓存

可挂载 /.cache 目录在容器间共享对齐模型。此场景请使用 no_model 标签（latest）。

docker run --gpus all -it -v ".:/app" -v whisper_cache:/.cache ghcr.io/jim60105/whisperx:latest -- --model large-v3 --language en --output_format srt audio.mp3

🛠️ 构建 Docker 镜像

[!IMPORTANT] 递归克隆 Git 仓库以包含子模块： git clone --recursive https://github.com/jim60105/docker-whisperX.git

构建参数

Dockerfile 构建包含模型的镜像。它接受两个构建参数：LANG 和 WHISPER_MODEL。

LANG：要转录的语言。默认为 en。请参见 https://github.com/jim60105/docker-whisperX/blob/master/load_align_model.py%E3%80%82
WHISPER_MODEL：模型名称。默认为 base。请参见 fast-whisper 了解支持的模型。

如需支持多种语言对齐，构建镜像时使用空格分隔的语言列表，例如 "LANG=pl fr en"。另请注意，WhisperX 在处理同一音频文件中的多种语言时表现不佳。即使不提供语言参数，它仍会识别语言（或回退到英文）并用于选择对齐模型。对齐模型是语言特定的。此说明仅用于将多个对齐模型嵌入 Docker 镜像。

构建命令

例如，如需构建包含 en 语言和 large-v3 模型的镜像：

docker build --build-arg LANG=en --build-arg WHISPER_MODEL=large-v3 -t whisperx:large-v3-en .

如需构建不包含任何预下载模型的镜像：

docker build --target no_model -t whisperx:no_model .

如需一次性构建所有镜像，我们提供 Docker bake 文件：

docker buildx bake build no_model

使用命令

将当前目录挂载为 /app 并使用附加输入参数运行 WhisperX：

docker run --gpus all -it -v ".:/app" whisperx:large-v3-ja -- --output_format srt audio.mp3

[!NOTE] 记得在参数前添加 --。 --model 和 --language 参数在 Dockerfile 中已定义，无需指定。

📝 许可证

主程序 WhisperX 采用 https://github.com/m-bain/whisperX/blob/main/LICENSE 分发。有关源代码和许可证的详细信息，请查阅其仓库。

本仓库中的 Dockerfile 和 CI 工作流文件采用 MIT 许可证授权。

🌟 Star History

轩辕镜像配置手册

探索更多轩辕镜像的使用方法，找到最适合您系统的配置方式

Docker 配置

登录仓库拉取

通过 Docker 登录认证访问私有仓库

专属域名拉取

无需登录使用专属域名

K8s Containerd

Kubernetes 集群配置 Containerd

K3s

K3s 轻量级 Kubernetes 镜像加速

Dev Containers

VS Code Dev Containers 配置

Podman

Podman 容器引擎配置

Singularity/Apptainer

HPC 科学计算容器配置

其他仓库配置

ghcr、Quay、nvcr 等镜像仓库

Harbor 镜像源配置

Harbor Proxy Repository 对接专属域名

Portainer 镜像源配置

Portainer Registries 加速拉取

Nexus 镜像源配置

Nexus3 Docker Proxy 内网缓存

系统配置

Linux

在 Linux 系统配置镜像服务

Windows/Mac

在 Docker Desktop 配置镜像

MacOS OrbStack

MacOS OrbStack 容器配置

Docker Compose

Docker Compose 项目配置

NAS 设备

群晖

Synology 群晖 NAS 配置

飞牛

飞牛 fnOS 系统配置镜像

绿联

绿联 NAS 系统配置镜像

威联通

QNAP 威联通 NAS 配置

极空间

极空间 NAS 系统配置服务

网络设备

爱快路由

爱快 iKuai 路由系统配置

宝塔面板

在宝塔面板一键配置镜像

需要其他帮助？请查看我们的常见问题Docker 镜像访问常见问题解答或提交工单

镜像拉取常见问题

使用与功能问题

配置了专属域名后，docker search 为什么会报错？

docker search 限制

Docker Hub 上有的镜像，为什么在轩辕镜像网站搜不到？

站内搜不到镜像

机器不能直连外网时，怎么用 docker save / load 迁镜像？

离线 save/load

docker pull 拉插件报错（plugin v1+json）怎么办？

插件要用 plugin install

WSL 里 Docker 拉镜像特别慢，怎么排查和优化？

WSL 拉取慢

轩辕镜像安全吗？如何用 digest 校验镜像没被篡改？

安全与 digest

第一次用轩辕镜像拉 Docker 镜像，要怎么登录和配置？

新手拉取配置

轩辕镜像合规吗？轩辕镜像的合规是怎么做的？

镜像合规机制

轩辕镜像支持 docker push 上传本地镜像吗？

不支持 push

错误码与失败问题

docker pull 提示 manifest unknown 怎么办？

manifest unknown

docker pull 提示 no matching manifest 怎么办？

no matching manifest（架构）

镜像已拉取完成，却提示 invalid tar header 或 failed to register layer 怎么办？

invalid tar header（解压）

Docker pull 时 HTTPS / TLS 证书验证失败怎么办？

TLS 证书失败

Docker pull 时 DNS 解析超时或连不上仓库怎么办？

DNS 超时

docker 无法连接轩辕镜像域名怎么办？

域名连通性排查

Docker 拉取出现 410 Gone 怎么办？

410 Gone 排查

出现 402 或「流量用尽」提示怎么办？

402 与流量用尽

Docker 拉取提示 UNAUTHORIZED（401）怎么办？

401 认证失败

遇到 429 Too Many Requests（请求太频繁）怎么办？

429 限流

docker login 提示 Cannot autolaunch D-Bus，还算登录成功吗？

D-Bus 凭证提示

为什么会出现「单层超过 20GB」或 413，无法加速拉取？

413 与超大单层

账号 / 计费 / 权限

轩辕镜像免费版和专业版有什么区别？

免费版与专业版区别

轩辕镜像支持哪些 Docker 镜像仓库？

支持的镜像仓库

镜像拉取失败还会不会扣流量？

失败是否计费

麒麟 V10 / 统信 UOS 提示 KYSEC 权限不够怎么办？

KYSEC 拦截脚本

如何在轩辕镜像申请开具发票？

申请开票

怎么修改轩辕镜像的网站登录和仓库登录密码？

修改登录密码

如何注销轩辕镜像账户？要注意什么？

注销账户

配置与原理类

写了 registry-mirrors，为什么还是走官方或仍然报错？

mirrors 不生效

怎么用 docker tag 去掉镜像名里的轩辕域名前缀？

去掉域名前缀

如何拉取指定 CPU 架构的镜像（如 ARM64、AMD64）？

指定架构拉取

用轩辕镜像拉镜像时快时慢，常见原因有哪些？

拉取速度原因

为什么拉取镜像的 :latest 标签，拿到的往往不是「最新」镜像？

latest 与「最新」

查看全部问题→

用户好评

来自真实用户的反馈，见证轩辕镜像的优质服务

oldzhang

运维工程师

Linux服务器

"Docker访问体验非常流畅，大镜像也能快速完成下载。"