轩辕镜像
轩辕镜像专业版
个人中心搜索镜像
交易
充值流量我的订单
工具
工单支持镜像收录Run 助手IP 归属地密码生成Npm 源Pip 源
帮助
常见问题我要吐槽
其他
关于我们网站地图

官方QQ群: 13763429

轩辕镜像
镜像详情
lintoai/linto-stt-kaldi
官方博客使用教程热门镜像工单支持
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。
所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。
轩辕镜像 - 国内开发者首选的专业 Docker 镜像下载加速服务平台 - 官方QQ群:13763429 👈点击免费获得技术支持。
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。

本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

linto-stt-kaldi Docker 镜像下载 - 轩辕镜像

linto-stt-kaldi 镜像详细信息和使用指南

linto-stt-kaldi 镜像标签列表和版本信息

linto-stt-kaldi 镜像拉取命令和加速下载

linto-stt-kaldi 镜像使用说明和配置指南

Docker 镜像加速服务 - 轩辕镜像平台

国内开发者首选的 Docker 镜像加速平台

极速拉取 Docker 镜像服务

相关 Docker 镜像推荐

热门 Docker 镜像下载

linto-stt-kaldi
lintoai/linto-stt-kaldi

linto-stt-kaldi 镜像详细信息

linto-stt-kaldi 镜像标签列表

linto-stt-kaldi 镜像使用说明

linto-stt-kaldi 镜像拉取命令

Docker 镜像加速服务

轩辕镜像平台优势

镜像下载指南

相关 Docker 镜像推荐

LinTO-STT-Kaldi是基于Kaldi训练模型的自动语音识别(ASR)API,支持作为独立转录服务或通过消息代理连接器部署于微服务架构,提供离线及实时转录功能。
1 收藏0 次下载activelintoai镜像
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源
中文简介版本下载
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

linto-stt-kaldi 镜像详细说明

linto-stt-kaldi 使用指南

linto-stt-kaldi 配置说明

linto-stt-kaldi 官方文档

LinTO-STT-Kaldi

镜像概述和主要用途

LinTO-STT-Kaldi 是一个基于 Kaldi 训练模型的自动语音识别(ASR)API。该镜像可作为独立转录服务部署,也可集成到微服务架构中(通过消息代理连接器),支持离线转录和实时转录两种模式。可通过 LinTO Studio 在浏览器中直接试用该服务。

核心功能和特性

  • 多模型支持:兼容 LinTO 声学/语言模型及 Vosk 一体化模型
  • 灵活部署模式:支持 HTTP 服务、消息队列任务处理、WebSocket 流式转录三种部署模式
  • 元数据输出:可返回单词级时间戳、置信度等详细转录信息
  • 标点恢复:集成 recasepunc 模型,支持文本标点和大小写恢复
  • 健康检查与文档:内置健康检查接口及 Swagger/OpenAPI 文档界面
  • 微服务适配:支持 RabbitMQ、Redis、Amazon SQS 等消息代理,通过共享文件夹处理大音频文件

使用场景和适用范围

  • 独立语音转文本服务:适用于需要离线或实时语音转录的独立应用
  • 微服务架构组件:作为微服务架构中的 ASR 模块,通过消息队列接收转录任务
  • 实时流处理:通过 WebSocket 提供实时音频流转录(如语音通话、直播字幕)
  • 离线转录任务:处理本地音频文件,生成带时间戳的文本记录(如会议录音、客服通话)
  • 需要元数据的应用:支持生成包含单词时间戳和置信度的转录结果,适用于字幕生成、语音分析等场景

前提条件

硬件要求

  • 磁盘空间:至少 7GB(用于构建 Docker 镜像)
  • 内存:根据模型类型,最高需 7GB RAM
  • CPU:每个工作进程需 1 个 CPU 核心(转录速度与 CPU 性能正相关)

模型准备

需将模型文件夹下载并解压至 Docker 容器可访问的目录。支持两种模型类型:

  • LinTO 模型:需分别提供声学模型(AM)和语言模型(LM),可从 dl.linto.ai 获取(v2 版本)
  • Vosk 模型:一体化模型,可从 alphacephei.com/vosk/models 获取

软件依赖

  • Docker:需安装并运行 Docker 环境(推荐版本 19.03+)
  • 微服务额外依赖(仅任务模式):
    • 消息代理:支持 RabbitMQ、Redis 或 Amazon SQS
    • 共享文件夹:用于存储大音频文件(避免通过消息代理传输)

部署指南

1. 获取镜像

方式一:本地构建

git clone [***]
cd linto-stt
docker build . -f kaldi/Dockerfile -t linto-stt-kaldi:latest

方式二:从 Docker Hub 拉取

docker pull lintoai/linto-stt-kaldi

2. 下载模型

  • LinTO 模型:将声学模型和语言模型分别存放于 AM_PATH 和 LM_PATH 目录
  • Vosk 模型:将模型存放于 MODEL_PATH 目录

3. 配置环境变量

创建 .env 文件(可参考 kaldi/.envdefault),配置关键参数。核心参数说明见 配置参数说明 章节。

4. 部署模式

模式一:HTTP 服务模式

以 HTTP 接口提供转录服务,支持文件上传和流式转录。

启动命令:

docker run --rm \
  -p 8080:80 \  # 宿主端口:容器端口
  -v /path/to/am:/opt/AM \  # 声学模型挂载(LinTO模型)
  -v /path/to/lm:/opt/LM \  # 语言模型挂载(LinTO模型)
  # -v /path/to/vosk/model:/opt/model \  # Vosk模型挂载(替换上述两行)
  -v /path/to/recasepunc:/opt/PUNCT \  # 标点模型(可选)
  --env-file .env \
  linto-stt-kaldi:latest

docker-compose 示例:

version: '3'
services:
  linto-stt:
    image: linto-stt-kaldi:latest
    ports:
      - "8080:80"
    volumes:
      - /host/am:/opt/AM
      - /host/lm:/opt/LM
      - /host/recasepunc:/opt/PUNCT
    environment:
      - SERVICE_MODE=http
      - MODEL_TYPE=lin
      - ENABLE_STREAMING=true
      - CONCURRENCY=4
      - PUNCTUATION_MODEL=/opt/PUNCT
    restart: unless-stopped

模式二:任务队列模式(微服务)

通过消息代理接收转录任务,适用于微服务架构。

启动命令:

docker run --rm \
  -v /path/to/am:/opt/AM \
  -v /path/to/lm:/opt/LM \
  -v /path/to/shared/audio:/opt/audio \  # 共享音频文件夹
  --env-file .env \
  linto-stt-kaldi:latest

模式三:WebSocket 流式模式

专用流式转录服务,仅提供 WebSocket 接口。

启动命令:

docker run --rm \
  -p 8080:80 \
  -v /path/to/model:/opt/model \  # 模型挂载(LinTO或Vosk)
  -v /path/to/recasepunc:/opt/PUNCT \  # 标点模型(可选)
  --env SERVICE_MODE=websocket \
  --env MODEL_TYPE=vosk \
  --env STREAMING_PORT=80 \
  linto-stt-kaldi:latest

配置参数说明

参数名描述示例值
SERVICE_MODE服务模式:http(HTTP接口)、task(任务队列)、websocket(流式)http
MODEL_TYPE模型类型:lin(LinTO模型)、vosk(Vosk模型)vosk
ENABLE_STREAMINGHTTP模式下是否启用 /streaming WebSocket 接口true
SERVICE_NAME任务模式下的队列名称my-stt-task-queue
SERVICE_BROKER任务模式下的消息代理URLredis://broker:6379
BROKER_PASS消息代理密码my-broker-password
STREAMING_PORTWebSocket模式下的监听端口80
CONCURRENCY最大并行请求数4
PUNCTUATION_MODELrecasepunc标点模型路径(容器内路径)/opt/PUNCT/fr.24000

使用方法

HTTP API 接口

健康检查:/healthcheck

  • 方法:GET
  • 响应:text/plain,返回 1 表示服务正常

文本转录:/transcribe

  • 方法:POST
  • 请求头:Content-Type: multipart/form-data
  • 请求体:file(16bit 16KHz WAV 音频文件)
  • 响应格式:
    • text/plain:纯文本转录结果
    • application/json:带元数据的 JSON,格式如下:
      {
        "text": "这是转录文本",
        "words": [
          {"word": "这是", "start": 0.123, "end": 0.456, "conf": 0.92},
          {"word": "转录文本", "start": 0.500, "end": 0.890, "conf": 0.88}
        ],
        "confidence-score": 0.90
      }
      

流式转录:/streaming(需 ENABLE_STREAMING=true)

  • 接口:WebSocket
  • 交互流程:
    1. 客户端发送配置:{"config": {"sample_rate": 16000, "language": "zh"}}(language 可选)
    2. 客户端发送音频片段(二进制)或结束信号 {"eof": 1}
    3. 服务端返回中间结果 {"partial": "这是中间"} 或最终结果 {"text": "这是最终转录文本"}
    4. 重复步骤 2-3,直至客户端发送 eof
    5. 服务端返回最终结果并关闭连接
  • 超时机制:10秒无数据传输时自动断开连接

接口文档:/docs

  • 访问方式:HTTP GET
  • 功能:Swagger/OpenAPI 交互式文档,可直接测试 API

消息代理接口(任务模式)

请求参数

任务队列接收的请求需包含以下参数:

  • file_path:共享文件夹内的音频文件路径(完整路径为 /opt/audio/{file_path})
  • with_metadata:是否返回元数据(时间戳、置信度),true/false

响应格式

成功转录后返回 JSON:

{
  "text": "这是转录文本",
  "words": [
    {"word": "这是", "start": 0.123, "end": 0.456, "conf": 0.92},
    ...
  ],
  "confidence-score": 0.90
}

测试

HTTP API 测试(curl)

# 测试转录接口(返回 JSON)
curl -X POST "http://localhost:8080/transcribe" \
  -H "accept: application/json" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@test_audio.wav;type=audio/x-wav"

# 测试健康检查
curl "http://localhost:8080/healthcheck"  # 返回 "1"

许可证

本项目基于 AGPLv3 许可证开发(详见 LICENSE 文件)。

致谢

  • Vosk 语音识别工具包
  • Kaldi 语音识别工具包
查看更多 linto-stt-kaldi 相关镜像 →
lintoai/linto-stt-whisper logo
lintoai/linto-stt-whisper
by lintoai
LinTO-STT-Whisper是基于Whisper模型的自动语音识别(ASR)API,可作为独立转录服务或通过消息代理连接器部署于微服务架构,支持离线及实时转录。
250K+ pulls
上次更新:30 天前

常见问题

轩辕镜像免费版与专业版有什么区别?

免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。

轩辕镜像免费版与专业版有分别支持哪些镜像?

免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。

流量耗尽错误提示

当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。

410 错误问题

通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。

manifest unknown 错误

先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。

镜像拉取成功后,如何去掉轩辕镜像域名前缀?

使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。

查看全部问题→

轩辕镜像下载加速使用手册

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式

🔐

登录方式进行 Docker 镜像下载加速教程

通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤

🐧

Linux Docker 镜像下载加速教程

在 Linux 系统上配置轩辕镜像源,支持主流发行版

🖥️

Windows/Mac Docker 镜像下载加速教程

在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统

📦

Docker Compose 镜像下载加速教程

在 Docker Compose 中使用轩辕镜像加速,支持容器编排

📋

K8s containerd 镜像下载加速教程

在 k8s 中配置 containerd 使用轩辕镜像加速

🔧

宝塔面板 Docker 镜像下载加速教程

在宝塔面板中配置轩辕镜像加速,提升服务器管理效率

💾

群晖 NAS Docker 镜像下载加速教程

在 Synology 群晖NAS系统中配置轩辕镜像加速

🐂

飞牛fnOS Docker 镜像下载加速教程

在飞牛fnOS系统中配置轩辕镜像加速

📱

极空间 NAS Docker 镜像下载加速教程

在极空间NAS中配置轩辕镜像加速

⚡

爱快路由 ikuai Docker 镜像下载加速教程

在爱快ikuai系统中配置轩辕镜像加速

🔗

绿联 NAS Docker 镜像下载加速教程

在绿联NAS系统中配置轩辕镜像加速

🌐

威联通 NAS Docker 镜像下载加速教程

在威联通NAS系统中配置轩辕镜像加速

📦

Podman Docker 镜像下载加速教程

在 Podman 中配置轩辕镜像加速,支持多系统

📚

ghcr、Quay、nvcr、k8s、gcr 等仓库下载镜像加速教程

配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤

🚀

专属域名方式进行 Docker 镜像下载加速教程

无需登录即可使用轩辕镜像加速服务,更加便捷高效

需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429

商务:17300950906
|©2024-2025 源码跳动
商务合作电话:17300950906|Copyright © 2024-2025 杭州源码跳动科技有限公司. All rights reserved.