轩辕镜像
轩辕镜像专业版
个人中心搜索镜像
交易
充值流量我的订单
工具
工单支持镜像收录Run 助手IP 归属地密码生成Npm 源Pip 源
帮助
常见问题我要吐槽
其他
关于我们网站地图

官方QQ群: 13763429

轩辕镜像
镜像详情
lintoai/linto-stt-whisper
官方博客使用教程热门镜像工单支持
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。
所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。
轩辕镜像 - 国内开发者首选的专业 Docker 镜像下载加速服务平台 - 官方QQ群:13763429 👈点击免费获得技术支持。
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。

本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

linto-stt-whisper Docker 镜像下载 - 轩辕镜像

linto-stt-whisper 镜像详细信息和使用指南

linto-stt-whisper 镜像标签列表和版本信息

linto-stt-whisper 镜像拉取命令和加速下载

linto-stt-whisper 镜像使用说明和配置指南

Docker 镜像加速服务 - 轩辕镜像平台

国内开发者首选的 Docker 镜像加速平台

极速拉取 Docker 镜像服务

相关 Docker 镜像推荐

热门 Docker 镜像下载

linto-stt-whisper
lintoai/linto-stt-whisper

linto-stt-whisper 镜像详细信息

linto-stt-whisper 镜像标签列表

linto-stt-whisper 镜像使用说明

linto-stt-whisper 镜像拉取命令

Docker 镜像加速服务

轩辕镜像平台优势

镜像下载指南

相关 Docker 镜像推荐

LinTO-STT-Whisper是基于Whisper模型的自动语音识别(ASR)API,可作为独立转录服务或通过消息代理连接器部署于微服务架构,支持离线及实时转录。
2 收藏0 次下载activelintoai镜像
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源
中文简介版本下载
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

linto-stt-whisper 镜像详细说明

linto-stt-whisper 使用指南

linto-stt-whisper 配置说明

linto-stt-whisper 官方文档

LinTO-STT-Whisper

镜像概述和主要用途

LinTO-STT-Whisper 是一个基于 Whisper 模型 的自动语音识别 (ASR) API。该服务既可以作为独立的转录服务使用,也可以通过消息代理连接器部署在微服务架构中。支持离线或实时转录功能,您可以通过 LinTO Studio 在浏览器中直接试用 LinTO-STT。

核心功能和特性

  • 支持多种部署模式:HTTP API、消息队列任务处理和WebSocket流式传输
  • 基于Whisper模型的高准确度语音识别
  • 支持多语言识别和自动语言检测
  • 可配置的语音活动检测(VAD)
  • 支持GPU加速以提高性能
  • 灵活的模型选择,包括不同大小的Whisper模型和HuggingFace上的模型

使用场景和适用范围

  • 离线语音转录服务
  • 实时语音转文字应用
  • 微服务架构中的语音识别组件
  • 需要高准确度语音识别的企业级应用
  • 多语言语音处理系统

前置条件

软件要求

  • Docker 环境
  • 如需GPU加速,需安装 nvidia-container-toolkit

硬件要求

  • 至少8GB磁盘空间用于构建Docker镜像,模型文件可能占用高达5GB空间
  • 根据模型大小,最高需要7GB内存
  • 每个工作进程需要1个CPU核心,推理时间与CPU性能成正比

在GPU上,不同模型大小的显存峰值使用情况如下表所示(根据后端和精度不同):

模型大小Backend和精度
ct2/faster_whisper
int8
tiny1.5G
distil-whisper/distil-large-v22.2G
large (large-v3等)2.8G
large-v3-turbo1.3G

模型要求

LinTO-STT-Whisper需要Whisper模型来执行语音识别。如果尚未下载,模型将在首次转录时下载,可能会占用数GB的磁盘空间。

可选的对齐模型(已弃用)

LinTO-STT-Whisper还可以选择使用wav2vec模型执行单词对齐。wav2vec模型可以通过以下方式指定:

  • (TorchAudio) 使用对应torchaudio管道的字符串(例如WAV2VEC2_ASR_BASE_960H)
  • (HuggingFace's Transformers) 使用对应HuggingFace仓库的字符串(例如jonatasgrosman/wav2vec2-large-xlsr-53-english)
  • (SpeechBrain) 使用包含SpeechBrain模型的文件夹路径

默认提供了法语(fr)、英语(en)、西班牙语(es)、德语(de)、荷兰语(nl)、日语(ja)和中文(zh)的wav2vec模型。但建议不再使用对齐模型,因为它已不再需要和测试。

微服务的消息代理和共享文件夹

任务模式下,STT的唯一入口是发布到消息代理的任务。支持的消息代理包括RabbitMQ、Redis和Amazon SQS。此外,为防止大型音频通过消息代理传输,STT-Worker使用共享存储文件夹(SHARED_FOLDER)。

部署指南

1. 构建或拉取镜像

git clone [***]
cd linto-stt
docker build . -f whisper/Dockerfile.ctranslate2 -t linto-stt-whisper:latest

或直接拉取预构建镜像:

docker pull lintoai/linto-stt-whisper

2. 配置.env文件

whisper/.envdefault 提供了.env文件的示例。

参数描述示例
SERVICE_MODE(必填) STT服务模式,参见服务模式http | task | websocket
MODEL(必填) Whisper模型路径、类型或HuggingFace标识符large-v3 | distil-whisper/distil-large-v2 | <ASR_PATH>
LANGUAGE识别语言* | fr | fr-FR | French | en | en-US | English
PROMPTWhisper模型使用的提示文本鼓励特定转录风格的自由文本(不流畅、无标点等)
DEVICE模型使用的设备(默认情况下,如果可用则使用GPU/CUDA,否则使用CPU)cpu | cuda
NUM_THREADSCPU上运行的最大线程数1 | 4
CUDA_VISIBLE_DEVICESGPU设备索引,多GPU机器上建议同时设置CUDA_DEVICE_ORDER=PCI_BUS_ID0 | 1 | 2
CONCURRENCY最大并行请求数(工作进程数减一)2
VAD语音活动检测方法。使用"false"禁用。如果未指定,默认是auditok VADtrue | false | 1 | 0 | auditok | silero
VAD_DILATATION扩展VAD检测到的每个语音段的时间(秒)。默认0.50.1 | 0.5
VAD_MIN_SPEECH_DURATION语音段的最小持续时间(秒)。默认0.10.1 | 0.5
VAD_MIN_SILENCE_DURATION静音段的最小持续时间(秒)。默认0.10.1 | 0.5
ENABLE_STREAMING(HTTP模式下) 遗留参数,如果启用则重定向到websocket模式true | false
USE_ACCURATE使用更消耗资源但更准确的参数进行转录。默认truetrue | false | 1 | 0
STREAMING_PORT(WebSocket模式下) 监听传入WS连接的端口。默认8080
STREAMING_MIN_CHUNK_SIZE转录前缓冲区的最小大小(秒)。默认0.50.5 | 26
STREAMING_BUFFER_TRIMMING_SEC缓冲区的最大目标长度(秒)。转录后尝试剪切到该长度。默认88 | 10
STREAMING_FINAL_MIN_DURATION最终结果的最小持续时间。默认21 | 2
STREAMING_FINAL_MAX_DURATION最终结果的最大持续时间。默认2020 | 10
STREAMING_PAUSE_FOR_FINAL在文本中未找到标点符号时,输出最终结果所需的最小静音持续时间(秒)。默认1.00.5 | 2
STREAMING_TIMEOUT_FOR_SILENCE如果在发送数据到服务器之前在本地应用VAD,这将允许服务器找到静音。如果在packet duration * STREAMING_TIMEOUT_FOR_SILENCE期间未收到数据包,则认为存在静音(持续数据包持续时间)。值应在1到2之间。默认1.51.8
SERVICE_NAME(仅任务模式) 任务处理队列名称my-stt
SERVICE_BROKER(仅任务模式) 消息代理URLredis://my-broker:6379
BROKER_PASS(仅任务模式) 代理密码my-password | (空)
ALIGNMENT_MODEL(已弃用) 用于单词对齐的wav2vec模型路径,或HuggingFace仓库名称或torchaudio管道WAV2VEC2_ASR_BASE_960H | jonatasgrosman/wav2vec2-large-xlsr-53-english | <WAV2VEC_PATH>

MODEL环境变量

警告: 模型将在首次转录时(如有需要将下载并)加载到内存中。当使用来自Hugging Face(transformers)的Whisper模型以及ctranslate2(faster_whisper)时,还将下载torch库以进行从torch到ctranslate2的转换。

如果要预加载模型(稍后指定路径<ASR_PATH>作为MODEL),您可能需要下载以下OpenAI Whisper模型之一:

  • 多语言Whisper模型可通过以下链接下载:

    • tiny
    • base
    • small
    • medium
    • large-v1
    • large-v2
    • large-v3
    • large-v3-turbo
  • 也可以找到专门用于英语的Whisper模型:

    • tiny.en
    • base.en
    • small.en
    • medium.en

如果您过去曾在本地使用OpenAI-Whipser,模型可以在~/.cache/whisper下找到。

对于来自Hugging Face(transformers)的Whisper模型也是如此,例如[***] Face标识符distil-whisper/distil-large-v2)。

LANGUAGE环境变量

LANGUAGE环境变量可用于设置默认语言(可以是"*"表示自动语言检测)。请注意,language也可以作为请求中的参数传递:在这种情况下,它将覆盖LANGUAGE环境变量。

语言值可以是:

  • 通配符"*",表示自动语言检测(由Whisper模型执行)
  • 语言BCP-47代码("fr-FR"、"en-US"、"yue-HK"等)
  • 两或三个字母的语言代码("fr"、"en"、"yue"等)。请注意,这是BCP-47代码中实际使用的唯一部分。
  • 语言名称("French"、"English"、"Cantonese"等)。

Whisper支持的语言列表: af(南非荷兰语), am(阿姆哈拉语), ar(阿拉伯语), as(阿萨姆语), az(阿塞拜疆语), ba(巴什基尔语), be(白俄罗斯语), bg(保加利亚语), bn(孟加拉语), bo(藏语), br(布列塔尼语), bs(波斯尼亚语), ca(加泰罗尼亚语), cs(捷克语), cy(威尔士语), da(丹麦语), de(德语), el(希腊语), en(英语), es(西班牙语), et(爱沙尼亚语), eu(巴斯克语), fa(波斯语), fi(芬兰语), fo(法罗语), fr(法语), gl(加利西亚语), gu(古吉拉特语), ha(豪萨语), haw(夏威夷语), he(希伯来语), hi(印地语), hr(克罗地亚语), ht(海地克里奥尔语), hu(匈牙利语), hy(亚美尼亚语), id(印度尼西亚语), is(冰岛语), it(意大利语), ja(日语), jw(爪哇语), ka(格鲁吉亚语), kk(哈萨克语), km(高棉语), kn(卡纳达语), ko(韩语), la(拉丁语), lb(卢森堡语), ln(林加拉语), lo(老挝语), lt(立陶宛语), lv(拉脱维亚语), mg(马尔加什语), mi(毛利语), mk(马其顿语), ml(马拉雅拉姆语), mn(蒙古语), mr(马拉地语), ms(马来语), mt(马耳他语), my(缅甸语), ne(尼泊尔语), nl(荷兰语), nn(新挪威语), no(挪威语), oc(奥克语), pa(旁遮普语), pl(波兰语), ps(普什图语

查看更多 linto-stt-whisper 相关镜像 →
lintoai/linto-stt-kaldi logo
lintoai/linto-stt-kaldi
by lintoai
LinTO-STT-Kaldi是基于Kaldi训练模型的自动语音识别(ASR)API,支持作为独立转录服务或通过消息代理连接器部署于微服务架构,提供离线及实时转录功能。
150K+ pulls
上次更新:1 个月前

常见问题

轩辕镜像免费版与专业版有什么区别?

免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。

轩辕镜像免费版与专业版有分别支持哪些镜像?

免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。

流量耗尽错误提示

当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。

410 错误问题

通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。

manifest unknown 错误

先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。

镜像拉取成功后,如何去掉轩辕镜像域名前缀?

使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。

查看全部问题→

轩辕镜像下载加速使用手册

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式

🔐

登录方式进行 Docker 镜像下载加速教程

通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤

🐧

Linux Docker 镜像下载加速教程

在 Linux 系统上配置轩辕镜像源,支持主流发行版

🖥️

Windows/Mac Docker 镜像下载加速教程

在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统

📦

Docker Compose 镜像下载加速教程

在 Docker Compose 中使用轩辕镜像加速,支持容器编排

📋

K8s containerd 镜像下载加速教程

在 k8s 中配置 containerd 使用轩辕镜像加速

🔧

宝塔面板 Docker 镜像下载加速教程

在宝塔面板中配置轩辕镜像加速,提升服务器管理效率

💾

群晖 NAS Docker 镜像下载加速教程

在 Synology 群晖NAS系统中配置轩辕镜像加速

🐂

飞牛fnOS Docker 镜像下载加速教程

在飞牛fnOS系统中配置轩辕镜像加速

📱

极空间 NAS Docker 镜像下载加速教程

在极空间NAS中配置轩辕镜像加速

⚡

爱快路由 ikuai Docker 镜像下载加速教程

在爱快ikuai系统中配置轩辕镜像加速

🔗

绿联 NAS Docker 镜像下载加速教程

在绿联NAS系统中配置轩辕镜像加速

🌐

威联通 NAS Docker 镜像下载加速教程

在威联通NAS系统中配置轩辕镜像加速

📦

Podman Docker 镜像下载加速教程

在 Podman 中配置轩辕镜像加速,支持多系统

📚

ghcr、Quay、nvcr、k8s、gcr 等仓库下载镜像加速教程

配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤

🚀

专属域名方式进行 Docker 镜像下载加速教程

无需登录即可使用轩辕镜像加速服务,更加便捷高效

需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429

商务:17300950906
|©2024-2025 源码跳动
商务合作电话:17300950906|Copyright © 2024-2025 杭州源码跳动科技有限公司. All rights reserved.