lintoai/linto-stt-kaldi Docker Image Overview

lintoai/linto-stt-kaldi

lintoai

LinTO-STT-Kaldi是基于Kaldi训练模型的自动语音识别（ASR）API，支持作为独立转录服务或通过消息代理连接器部署于微服务架构，提供离线及实时转录功能。

1 次收藏下载次数: 0状态：社区镜像维护者：lintoai仓库类型：镜像最近更新：20 天前

轩辕镜像，让镜像更快，让人生更轻。点击查看

中文简介版本下载

轩辕镜像，让镜像更快，让人生更轻。点击查看

LinTO-STT-Kaldi

镜像概述和主要用途

LinTO-STT-Kaldi 是一个基于 Kaldi 训练模型的自动语音识别（ASR）API。该镜像可作为独立转录服务部署，也可集成到微服务架构中（通过消息代理连接器），支持离线转录和实时转录两种模式。可通过 LinTO Studio 在浏览器中直接试用该服务。

核心功能和特性

多模型支持：兼容 LinTO 声学/语言模型及 Vosk 一体化模型
灵活部署模式：支持 HTTP 服务、消息队列任务处理、WebSocket 流式转录三种部署模式
元数据输出：可返回单词级时间戳、置信度等详细转录信息
标点恢复：集成 recasepunc 模型，支持文本标点和大小写恢复
健康检查与文档：内置健康检查接口及 Swagger/OpenAPI 文档界面
微服务适配：支持 RabbitMQ、Redis、Amazon SQS 等消息代理，通过共享文件夹处理大音频文件

使用场景和适用范围

独立语音转文本服务：适用于需要离线或实时语音转录的独立应用
微服务架构组件：作为微服务架构中的 ASR 模块，通过消息队列接收转录任务
实时流处理：通过 WebSocket 提供实时音频流转录（如语音通话、直播字幕）
离线转录任务：处理本地音频文件，生成带时间戳的文本记录（如会议录音、客服通话）
需要元数据的应用：支持生成包含单词时间戳和置信度的转录结果，适用于字幕生成、语音分析等场景

前提条件

硬件要求

磁盘空间：至少 7GB（用于构建 Docker 镜像）
内存：根据模型类型，最高需 7GB RAM
CPU：每个工作进程需 1 个 CPU 核心（转录速度与 CPU 性能正相关）

模型准备

需将模型文件夹下载并解压至 Docker 容器可访问的目录。支持两种模型类型：

LinTO 模型：需分别提供声学模型（AM）和语言模型（LM），可从 dl.linto.ai 获取（v2 版本）
Vosk 模型：一体化模型，可从 alphacephei.com/vosk/models 获取

软件依赖

Docker：需安装并运行 Docker 环境（推荐版本 19.03+）
微服务额外依赖（仅任务模式）：
- 消息代理：支持 RabbitMQ、Redis 或 Amazon SQS
- 共享文件夹：用于存储大音频文件（避免通过消息代理传输）

部署指南

1. 获取镜像

方式一：本地构建

bash
git clone [***]
cd linto-stt
docker build . -f kaldi/Dockerfile -t linto-stt-kaldi:latest

方式二：从 Docker Hub 拉取

bash
docker pull lintoai/linto-stt-kaldi

2. 下载模型

LinTO 模型：将声学模型和语言模型分别存放于 AM_PATH 和 LM_PATH 目录
Vosk 模型：将模型存放于 MODEL_PATH 目录

3. 配置环境变量

创建 .env 文件（可参考 kaldi/.envdefault），配置关键参数。核心参数说明见配置参数说明章节。

4. 部署模式

模式一：HTTP 服务模式

以 HTTP 接口提供转录服务，支持文件上传和流式转录。

启动命令：

bash
docker run --rm \
  -p 8080:80 \  # 宿主端口:容器端口
  -v /path/to/am:/opt/AM \  # 声学模型挂载（LinTO模型）
  -v /path/to/lm:/opt/LM \  # 语言模型挂载（LinTO模型）
  # -v /path/to/vosk/model:/opt/model \  # Vosk模型挂载（替换上述两行）
  -v /path/to/recasepunc:/opt/PUNCT \  # 标点模型（可选）
  --env-file .env \
  linto-stt-kaldi:latest

docker-compose 示例：

yaml
version: '3'
services:
  linto-stt:
    image: linto-stt-kaldi:latest
    ports:
      - "8080:80"
    volumes:
      - /host/am:/opt/AM
      - /host/lm:/opt/LM
      - /host/recasepunc:/opt/PUNCT
    environment:
      - SERVICE_MODE=http
      - MODEL_TYPE=lin
      - ENABLE_STREAMING=true
      - CONCURRENCY=4
      - PUNCTUATION_MODEL=/opt/PUNCT
    restart: unless-stopped

模式二：任务队列模式（微服务）

通过消息代理接收转录任务，适用于微服务架构。

启动命令：

bash
docker run --rm \
  -v /path/to/am:/opt/AM \
  -v /path/to/lm:/opt/LM \
  -v /path/to/shared/audio:/opt/audio \  # 共享音频文件夹
  --env-file .env \
  linto-stt-kaldi:latest

模式三：WebSocket 流式模式

专用流式转录服务，仅提供 WebSocket 接口。

启动命令：

bash
docker run --rm \
  -p 8080:80 \
  -v /path/to/model:/opt/model \  # 模型挂载（LinTO或Vosk）
  -v /path/to/recasepunc:/opt/PUNCT \  # 标点模型（可选）
  --env SERVICE_MODE=websocket \
  --env MODEL_TYPE=vosk \
  --env STREAMING_PORT=80 \
  linto-stt-kaldi:latest

配置参数说明

参数名	描述	示例值
`SERVICE_MODE`	服务模式：`http`（HTTP接口）、`task`（任务队列）、`websocket`（流式）	`http`
`MODEL_TYPE`	模型类型：`lin`（LinTO模型）、`vosk`（Vosk模型）	`vosk`
`ENABLE_STREAMING`	HTTP模式下是否启用 `/streaming` WebSocket 接口	`true`
`SERVICE_NAME`	任务模式下的队列名称	`my-stt-task-queue`
`SERVICE_BROKER`	任务模式下的消息代理URL	`redis://broker:6379`
`BROKER_PASS`	消息代理密码	`my-broker-password`
`STREAMING_PORT`	WebSocket模式下的监听端口	`80`
`CONCURRENCY`	最大并行请求数	`4`
`PUNCTUATION_MODEL`	recasepunc标点模型路径（容器内路径）	`/opt/PUNCT/fr.24000`

使用方法

HTTP API 接口

健康检查：`/healthcheck`

方法：GET
响应：text/plain，返回 1 表示服务正常

文本转录：`/transcribe`

方法：POST
请求头：Content-Type: multipart/form-data
请求体：file（16bit 16KHz WAV 音频文件）

响应格式：

text/plain：纯文本转录结果

application/json：带元数据的 JSON，格式如下：

json
{
  "text": "这是转录文本",
  "words": [
    {"word": "这是", "start": 0.123, "end": 0.456, "conf": 0.92},
    {"word": "转录文本", "start": 0.500, "end": 0.890, "conf": 0.88}
  ],
  "confidence-score": 0.90
}

流式转录：`/streaming`（需 `ENABLE_STREAMING=true`）

接口：WebSocket
交互流程：
1. 客户端发送配置：{"config": {"sample_rate": ***, "language": "zh"}}（language 可选）
2. 客户端发送音频片段（二进制）或结束信号 {"eof": 1}
3. 服务端返回中间结果 {"partial": "这是中间"} 或最终结果 {"text": "这是最终转录文本"}
4. 重复步骤 2-3，直至客户端发送 eof
5. 服务端返回最终结果并关闭连接
超时机制：10秒无数据传输时自动断开连接

接口文档：`/docs`

访问方式：HTTP GET
功能：Swagger/OpenAPI 交互式文档，可直接测试 API

消息代理接口（任务模式）

请求参数

任务队列接收的请求需包含以下参数：

file_path：共享文件夹内的音频文件路径（完整路径为 /opt/audio/{file_path}）
with_metadata：是否返回元数据（时间戳、置信度），true/false

响应格式

成功转录后返回 JSON：

json
{
  "text": "这是转录文本",
  "words": [
    {"word": "这是", "start": 0.123, "end": 0.456, "conf": 0.92},
    ...
  ],
  "confidence-score": 0.90
}

测试

HTTP API 测试（curl）

bash
# 测试转录接口（返回 JSON）
curl -X POST "http://localhost:8080/transcribe" \
  -H "accept: application/json" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@test_audio.wav;type=audio/x-wav"

# 测试健康检查
curl "http://localhost:8080/healthcheck"  # 返回 "1"