guiji2025/fun-asr

guiji2025

guiji2025/fun-asr：基于阿里达摩院 FunASR 工具包的容器镜像，集成 VAD/ASR/PUNC 全链路语音识别，支持离线批量转写、实时流式识别、高并发处理；提供 CPU/GPU/英文/实时服务等多个版本，适配 AI 数字人、会议转写、智能客服等场景。

3 次收藏下载次数: 0状态：社区镜像维护者：guiji2025仓库类型：镜像最近更新：1 年前

让 AI 帮你使用轩辕镜像？ · 展开查看说明 · 点击收起说明

如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具，协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题，请先让 AI 阅读并遵守轩辕镜像的规则文档。

只需在 AI 对话中先发送下面这句话即可：

请先完整阅读并严格遵守以下文档中的全部规则与要求：

https://xuanyuan.cloud/agents.md

在未充分阅读并理解该文档前，不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。

查看 agents.md 用法指南与完整示范。国内用户首推元宝 AI、DeepSeek 的深度思考模式，不推荐豆包 AI；Cursor 等编辑器可在对话 @ 该链接，或加入 User Rules。若 AI 无法访问外链，可打开说明文档复制全文粘贴。文档会随站点更新，复制内容可能过期，建议定期检查。

DockerHub 官方简介

轩辕镜像中文简介

下载命令

镜像标签列表与下载命令

轩辕镜像，不浪费每一次拉取。

点击查看

guiji2025/fun-asr 镜像使用指南

一、镜像概述与核心定位

guiji2025/fun-asr 是基于阿里达摩院开源语音识别工具包 FunASR 的容器化部署镜像，核心作用是快速提供工业级语音识别（ASR）服务。FunASR 是面向学术与工业场景的开源语音识别工具包，集成了达摩院语音实验室的核心能力（如高精度 ASR 模型、语音端点检测 VAD、标点恢复 PUNC），而该镜像通过 Docker 封装，跳过复杂的环境配置（如依赖安装、模型下载、硬件适配），让开发者通过拉取镜像即可快速启动语音识别服务。

核心价值

全链路语音识别：集成 VAD（语音端点检测）+ ASR（语音识别）+ PUNC（标点恢复）完整流程，实现「音频输入 → 带标点文字输出」
即开即用：预装 FunASR 核心模块与 Paraformer-large 等高精度模型，无需手动配置环境
多场景适配：支持离线批量转写、实时流式识别、高并发处理，适配 CPU/GPU 硬件
生产级质量：基于达摩院工业级技术，识别准确率高，支持长音频、多格式输入

二、核心功能与特性

2.1 完整语音识别链路

语音端点检测（VAD）

自动识别音频中的「有效语音段」与「静音段」，过滤无效噪声，提升识别准确性与处理效率。

优势：有效分离语音与静音，减少无效音频的识别开销。

语音识别（ASR）

基于 Paraformer-large 等高精度模型，支持中文/英文语音转文字，识别准确率适配日常对话、会议录音等场景。

模型特性：

中文识别：支持普通话、多种方言
英文识别：针对英文语音优化
准确率高：基于达摩院先进算法

标点恢复（PUNC）

自动为识别结果添加逗号、句号等标点，提升文本可读性，避免「纯文字无断句」的阅读障碍。

优势：输出即用的格式化文本，无需人工后期处理。

2.2 多场景语音处理能力

离线批量转写

支持处理几十小时的长音频/视频文件，支持通过 wav.scp 列表批量输入多文件。

支持的格式：

音频：.wav、.pcm、.mp3、.flac、.m4a
视频：.mp4、.avi、.mov

典型场景：

会议录音批量转写
视频字幕自动生成
音频内容归档检索

实时流式识别

针对低延迟优化，支持实时语音交互场景。

典型应用：

智能客服语音输入
实时字幕显示
语音输入法
语音助手

高并发支撑

支持上百路请求同时转写，满足企业级多用户并发使用需求。

技术特性：

动态批处理（GPU 版本）
请求队列管理
资源优化调度

2.3 硬件与格式兼容性

维度	详细信息
CPU 版本	支持 ARM64 架构，低内存占用，适合无 GPU 环境
GPU 版本	基于 NVIDIA CUDA，动态批处理，提升识别速度
输入格式	兼容主流音频（.wav、.pcm、.mp3）与视频（.mp4）格式
无需转码	直接处理多格式输入，减少预处理步骤

三、镜像版本与选择建议

根据 FunASR 的部署需求，该镜像提供多版本细分，适配不同场景：

镜像版本类型	核心特性	适配场景	推荐标签
中文 CPU 版	Ubuntu 20.04 基础，ARM64 兼容，低内存占用	通用中文场景、无 GPU 环境、普通服务器	`latest` 或 `cpu`
中文 GPU 版	基于 NVIDIA CUDA，动态批处理，高识别速度	高性能中文场景、批量长音频转写、高并发	`gpu` 或 `cuda`
英文 CPU 版	专为英语语音优化，修复内存泄漏问题	英文语音识别、海外业务、英文会议	`en-cpu`
实时服务版	低延迟流式处理，支持实时请求响应	实时语音交互、智能助手、实时字幕	`online`

版本选择建议

普通服务器、预算有限：选择 CPU 版本
需要高性能、有 GPU 资源：选择 GPU 版本
主要是英文识别：选择英文版本
需要实时交互：选择实时服务版

四、前置准备

4.1 硬件与软件要求

项目	要求
硬件	CPU：多核处理器；GPU（可选）：NVIDIA GPU 支持 CUDA
操作系统	Linux（推荐 Ubuntu 20.04+），macOS（Docker Desktop），Windows（WSL2）
容器工具	Docker 19.03+，如需 GPU 需安装 NVIDIA Container Runtime
存储空间	建议预留 ≥2GB（镜像） + 模型文件空间
网络环境	首次使用需联网下载模型，建议***或使用国内镜像源

4.2 GPU 环境准备（如使用 GPU 版本）

bash
# 安装 NVIDIA Container Runtime
# Ubuntu/Debian
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
  sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
  sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

# 验证 GPU 支持
docker run --rm --gpus all docker.xuanyuan.run/nvidia/cuda:12.0.0-base-ubuntu22.04 nvidia-smi

五、镜像拉取与启动

5.1 拉取镜像

bash
# 拉取最新版本
docker pull docker.xuanyuan.run/r/guiji2025/fun-asr:latest

# 拉取 GPU 版本
docker pull docker.xuanyuan.run/r/guiji2025/fun-asr:gpu

# 拉取英文版本
docker pull docker.xuanyuan.run/r/guiji2025/fun-asr:en-cpu

5.2 基础启动命令

CPU 版本启动

bash
docker run -d \
  --name fun-asr \
  -p 10095:10095 \
  -v /宿主机/模型路径:/root/funasr-runtime-resources \
  docker.xuanyuan.run/r/guiji2025/fun-asr:latest

GPU 版本启动

bash
docker run -d \
  --name fun-asr-gpu \
  --runtime=nvidia \
  --privileged=true \
  -p 10095:10095 \
  -v /宿主机/模型路径:/root/funasr-runtime-resources \
  -w /workspace/FunASR/runtime \
  docker.xuanyuan.run/r/guiji2025/fun-asr:gpu \
  sh /run.sh

完整 docker-compose 配置示例

参考 HeyGem AI 数字人项目的实际应用：

yaml
version: '3.8'

services:
  heygem-asr:
    image: docker.xuanyuan.run/guiji2025/fun-asr
    container_name: heygem-asr
    restart: always
    runtime: nvidia  # 启用 GPU 加速
    privileged: true
    working_dir: /workspace/FunASR/runtime
    ports:
      - '10095:10095'  # 服务端口
    volumes:
      - ./models:/root/funasr-runtime-resources  # 模型目录挂载
    command: sh /run.sh  # 启动服务脚本

5.3 参数说明

参数	说明	示例
`-p 10095:10095`	映射服务端口（FunASR 默认端口）	宿主机端口:容器端口
`--runtime=nvidia`	启用 GPU 支持（GPU 版本必需）	-
`--privileged=true`	赋予容器特权（部分场景需要）	-
`-w /workspace/FunASR/runtime`	设置工作目录	FunASR 运行目录
`-v /宿主机/模型路径:/root/funasr-runtime-resources`	挂载模型目录到容器	模型与配置目录
`sh /run.sh`	启动服务脚本	GPU 版本默认命令

六、API 使用示例

6.1 单音频文件识别

bash
curl -X POST "http://localhost:10095/asr" \
  -H "Content-Type: application/json" \
  -d '{
    "audio": "base64_encoded_audio_data",
    "format": "wav",
    "language": "zh"
  }'

6.2 批量文件识别（使用 wav.scp）

创建 wav.scp 文件：

audio001 /path/to/audio001.wav
audio002 /path/to/audio002.wav
audio003 /path/to/audio003.wav

容器内执行：

bash
docker exec -it fun-asr bash
cd /workspace/FunASR/runtime
./run.sh --wav.scp /path/to/wav.scp --output-dir /path/to/output

6.3 Python SDK 调用示例

python
import requests
import base64

# 读取音频文件
with open("audio.wav", "rb") as f:
    audio_data = base64.b64encode(f.read()).decode('utf-8')

# 调用 ASR API
url = "http://localhost:10095/asr"
payload = {
    "audio": audio_data,
    "format": "wav",
    "language": "zh"  # zh: 中文, en: 英文
}

response = requests.post(url, json=payload)
result = response.json()
print(f"识别结果: {result.get('text', '')}")

6.4 实时流式识别

python
import websocket
import json

# WebSocket 连接到实时服务
ws = websocket.WebSocket()
ws.connect("ws://localhost:10095/asr-stream")

# 发送音频数据流
# ... (音频流处理逻辑)

# 接收识别结果
result = ws.recv()
print(f"实时识别: {result}")

ws.close()

七、模型配置与替换

7.1 默认模型路径

容器内模型与资源目录：

bash
/root/funasr-runtime-resources

7.2 使用自定义微调模型

如需替换为自定义模型，将模型文件挂载到容器：

bash
docker run -d \
  --name fun-asr-custom \
  -p 10095:10095 \
  -v /宿主机/自定义模型:/root/funasr-runtime-resources \
  docker.xuanyuan.run/r/guiji2025/fun-asr:latest

7.3 模型来源

官方模型：镜像内置的 ASR 模型（如 Paraformer-large）来自 ModelScope 社区
自定义模型：支持替换为自定义微调模型
模型格式：支持 FunASR 兼容的模型格式

八、测试与验证

8.1 容器状态检查

bash
# 查看容器运行状态
docker ps | grep fun-asr

# 查看日志
docker logs -f fun-asr

# 进入容器调试
docker exec -it fun-asr bash

8.2 使用 samples 工具测试

进入容器后，使用 FunASR 内置的 samples 工具测试识别效果：

bash
docker exec -it fun-asr bash
cd /root/funasr-runtime-resources/samples

# 运行测试脚本
./test.sh

8.3 测试 API 连接

bash
# 检查服务健康状态
curl http://localhost:10095/health

# 发送测试请求
curl -X POST "http://localhost:10095/asr" \
  -H "Content-Type: application/json" \
  -d '{"test": "ping"}'

九、典型应用场景

9.1 AI 数字人语音服务

在 AI 数字人项目中集成 ASR 能力，实现语音交互：

yaml
# docker-compose.yml 配置
digital-human:
  services:
    # AI 数字人交互模块
    interaction:
      image: docker.xuanyuan.run/digital-human-core
      depends_on:
        - asr-service
    
    # ASR 语音识别服务
    asr-service:
      image: docker.xuanyuan.run/guiji2025/fun-asr
      ports:
        - '10095:10095'

9.2 会议录音批量转写

处理大量会议录音，实现自动化转写：

bash
# 批量转写脚本示例
docker exec -it fun-asr bash

for audio in /data/meetings/*.wav; do
    ./run.sh --audio "$audio" --output "/data/transcripts/$(basename $audio).txt"
done

9.3 智能客服语音输入

集成到智能客服系统，支持实时语音输入：

python
# 客服系统集成示例
from docker.xuanyuan.run/funasr import ASR

# 初始化 ASR 客户端
asr_client = ASR(api_url="http://fun-asr:10095")

# 处理客服语音输入
def process_customer_voice(audio_stream):
    text = asr_client.transcribe(audio_stream)
    return handle_customer_query(text)

9.4 视频字幕自动生成

为视频内容自动生成字幕文件：

bash
# 视频转字幕流程
# 1. 提取音频
docker exec -it fun-asr ffmpeg -i video.mp4 audio.wav

# 2. 识别转文字
docker exec -it fun-asr ./run.sh --audio audio.wav --output subtitle.srt

十、性能优化建议

10.1 内存优化

bash
# 限制容器内存使用
docker run -d \
  --name fun-asr \
  --memory="4g" \
  --memory-swap="4g" \
  -p 10095:10095 \
  docker.xuanyuan.run/r/guiji2025/fun-asr:latest

10.2 CPU 核心限制

bash
# 限制 CPU 使用核心数
docker run -d \
  --name fun-asr \
  --cpus="4" \
  -p 10095:10095 \
  docker.xuanyuan.run/r/guiji2025/fun-asr:latest

10.3 批量处理优化

对于大批量文件，建议使用 GPU 版本并调整批处理参数：

bash
# GPU 版本 + 动态批处理
docker run -d \
  --name fun-asr-gpu \
  --runtime=nvidia \
  -p 10095:10095 \
  -e BATCH_SIZE=32 \
  -e MAX_CONCURRENT_REQUESTS=100 \
  docker.xuanyuan.run/r/guiji2025/fun-asr:gpu

十一、常见问题与解决方案（FAQ）

问题现象	可能原因	解决方案
容器启动失败	端口冲突或资源不足	检查端口 *** 是否被占用；调整内存/CPU 限制
GPU 不可用	未安装 NVIDIA Container Runtime	安装 nvidia-container-toolkit 并重启 Docker
识别准确率低	音频质量差或采样率不匹配	确保音频清晰、无噪声；检查采样率（推荐 16kHz/8kHz）
批量处理速度慢	未使用 GPU 或批处理设置不当	切换到 GPU 版本；调整 batch_size 参数
实时识别延迟高	网络延迟或资源不足	检查网络状况；增加 CPU/GPU 资源
模型加载失败	模型路径错误或文件损坏	检查挂载路径；重新下载模型文件
英文识别效果差	使用中文版本处理英文	切换至英文版本（en-cpu 标签）
并发处理崩溃	内存不足或线程数过多	限制并发数量；增加容器内存

十二、进阶配置

12.1 自定义配置

挂载自定义配置文件：

bash
docker run -d \
  --name fun-asr-custom \
  -p 10095:10095 \
  -v /宿主机/config:/root/funasr-runtime-resources/config \
  docker.xuanyuan.run/r/guiji2025/fun-asr:latest

12.2 日志管理

挂载日志目录到宿主机：

bash
docker run -d \
  --name fun-asr \
  -p 10095:10095 \
  -v /宿主机/logs:/workspace/FunASR/runtime/logs \
  docker.xuanyuan.run/r/guiji2025/fun-asr:latest

12.3 多语言切换

bash
# 设置识别语言
docker run -d \
  --name fun-asr-multilang \
  -p 10095:10095 \
  -e LANGUAGE=zh  # zh: 中文, en: 英文
docker run -d \
  --name fun-asr-multilang \
  -p 10095:10095 \
  -e LANGUAGE=zh  # zh: 中文, en: 英文
  docker.xuanyuan.run/r/guiji2025/fun-asr:latest

十三、参考资源

FunASR 官方网站：https://github.com/alibaba-damo-academy/FunASR
ModelScope 模型社区：https://modelscope.cn/models?page=1&tasks=auto-speech-recognition
FunASR 官方文档：https://funasr.readthedocs.io/
阿里达摩院语音实验室：<[***]>
HeyGem AI 数字人项目：（如有公开链接）

注意：本镜像基于阿里达摩院 FunASR 开源工具包构建，建议根据实际场景选择合适的版本（CPU/GPU、中文/英文）。首次使用建议从 CPU 版本开始测试，确保环境配置正确后再部署生产环境。

镜像拉取方式

您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本，请访问标签列表页面。

轩辕镜像加速拉取命令点我查看更多 fun-asr 镜像标签

docker pull docker.xuanyuan.run/guiji2025/fun-asr:<标签>

使用方法：

DockerHub 原生拉取命令

docker pull guiji2025/fun-asr:<标签>

轩辕镜像配置手册

按平台快速找到配置文档

Docker

登录仓库拉取

登录认证 · 私有仓库

专属域名拉取

免登录 · 高速拉取

Linux

Docker 镜像配置

Windows / Mac

Docker Desktop 配置

MacOS OrbStack

OrbStack 容器

Apple Container

macOS 原生容器

Docker Compose

Compose 项目配置

NAS

群晖

Synology 配置

飞牛

fnOS 镜像配置

绿联

绿联 NAS

威联通

QNAP 配置

极空间

极空间 NAS

Unraid

Unraid NAS

企业仓库

其他仓库

ghcr · Quay · nvcr

Harbor 镜像源

Proxy Repository 对接

Portainer 镜像源

Registries 配置

Nexus 镜像源

Docker Proxy 缓存

开发工具

Dev Containers

VS Code 开发容器

Podman

Podman 配置指南

Singularity / Apptainer

HPC 科学计算容器

Kubernetes

K8s Containerd

Kubernetes · Containerd

K3s

轻量级集群

面板 / 网络

爱快路由

iKuai 镜像加速

宝塔面板

一键配置镜像源

AI

用 AI 使用轩辕镜像

agents.md · AI 对话 · 提示词

一键安装

一键安装 Docker

Linux Docker 一键安装

需要其他帮助？请查看我们的常见问题Docker 镜像访问常见问题解答或提交工单

镜像拉取常见问题

功能

版本功能对比

功能对比 · 版本选择

支持的镜像仓库

Docker Hub · GCR · GHCR

新手拉取配置

docker search 限制

专属域名 · Hub 搜索

不支持 push

仅支持 pull · 不支持

拉取速度原因

带宽 · 缓存 · 冷热镜像

错误码

402 与流量用尽

402 · 流量包 · 充值

401 认证失败

401 · docker login

manifest unknown

标签错误 · 镜像不存在

410 Gone 排查

410 · Docker 升级

429 限流

免费版 · 请求频率

其他报错

DNS 超时

DNS 解析 · 网络超时

TLS 证书失败

no matching manifest（架构）

账号

失败是否计费

manifest · blob · 计费

申请开发票（企业 / 个人）

企业 · 个人 · 工单

修改登录密码

网站 · 仓库 · 重置

注销账户

工单 · 数据 · 注销

原理

mirrors 不生效

daemon.json · 重启

去掉域名前缀

docker tag · 重命名

指定架构拉取

ARM64 · AMD64 · 多架构

latest 与「最新」

digest · 版本号 · 标签

查看全部问题→

用户好评

来自真实用户的反馈，见证轩辕镜像的优质服务

oldzhang

运维工程师

Linux服务器

"Docker访问体验非常流畅，大镜像也能快速完成下载。"