专属域名
文档搜索
提交工单
轩辕助手
Run助手
返回顶部
快速返回页面顶部
收起
收起工具栏

guiji2025/fun-asr Docker 镜像 - 轩辕镜像

镜像简介

guiji2025/fun-asr:基于阿里达摩院 FunASR 工具包的容器镜像,集成 VAD/ASR/PUNC 全链路语音识别,支持离线批量转写、实时流式识别、高并发处理;提供 CPU/GPU/英文/实时服务等多个版本,适配 AI 数字人、会议转写、智能客服等场景。

镜像统计信息

收藏数: 3

下载次数: 298457

状态: active

发布者: guiji2025

类型: 镜像

fun-asr
guiji2025/fun-asr
guiji2025/fun-asr:基于阿里达摩院 FunASR 工具包的容器镜像,集成 VAD/ASR/PUNC 全链路语音识别,支持离线批量转写、实时流式识别、高并发处理;提供 CPU/GPU/英文/实时服务等多个版本,适配 AI 数字人、会议转写、智能客服等场景。
3 收藏0 次下载activeguiji2025镜像
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源
版本下载
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

guiji2025/fun-asr 镜像使用指南

一、镜像概述与核心定位

guiji2025/fun-asr 是基于阿里达摩院开源语音识别工具包 FunASR 的容器化部署镜像,核心作用是快速提供工业级语音识别(ASR)服务。FunASR 是面向学术与工业场景的开源语音识别工具包,集成了达摩院语音实验室的核心能力(如高精度 ASR 模型、语音端点检测 VAD、标点恢复 PUNC),而该镜像通过 Docker 封装,跳过复杂的环境配置(如依赖安装、模型下载、硬件适配),让开发者通过拉取镜像即可快速启动语音识别服务。

核心价值
  • 全链路语音识别:集成 VAD(语音端点检测)+ ASR(语音识别)+ PUNC(标点恢复)完整流程,实现「音频输入 → 带标点文字输出」
  • 即开即用:预装 FunASR 核心模块与 Paraformer-large 等高精度模型,无需手动配置环境
  • 多场景适配:支持离线批量转写、实时流式识别、高并发处理,适配 CPU/GPU 硬件
  • 生产级质量:基于达摩院工业级技术,识别准确率高,支持长音频、多格式输入

二、核心功能与特性

2.1 完整语音识别链路
语音端点检测(VAD)

自动识别音频中的「有效语音段」与「静音段」,过滤无效噪声,提升识别准确性与处理效率。

优势:有效分离语音与静音,减少无效音频的识别开销。

语音识别(ASR)

基于 Paraformer-large 等高精度模型,支持中文/英文语音转文字,识别准确率适配日常对话、会议录音等场景。

模型特性:

  • 中文识别:支持普通话、多种方言
  • 英文识别:针对英文语音优化
  • 准确率高:基于达摩院先进算法
标点恢复(PUNC)

自动为识别结果添加逗号、句号等标点,提升文本可读性,避免「纯文字无断句」的阅读障碍。

优势:输出即用的格式化文本,无需人工后期处理。

2.2 多场景语音处理能力
离线批量转写

支持处理几十小时的长音频/视频文件,支持通过 wav.scp 列表批量输入多文件。

支持的格式:

  • 音频:.wav、.pcm、.mp3、.flac、.m4a
  • 视频:.mp4、.avi、.mov

典型场景:

  • 会议录音批量转写
  • 视频字幕自动生成
  • 音频内容归档检索
实时流式识别

针对低延迟优化,支持实时语音交互场景。

典型应用:

  • 智能客服语音输入
  • 实时字幕显示
  • 语音输入法
  • 语音助手
高并发支撑

支持上百路请求同时转写,满足企业级多用户并发使用需求。

技术特性:

  • 动态批处理(GPU 版本)
  • 请求队列管理
  • 资源优化调度
2.3 硬件与格式兼容性
维度详细信息
CPU 版本支持 ARM64 架构,低内存占用,适合无 GPU 环境
GPU 版本基于 NVIDIA CUDA,动态批处理,提升识别速度
输入格式兼容主流音频(.wav、.pcm、.mp3)与视频(.mp4)格式
无需转码直接处理多格式输入,减少预处理步骤

三、镜像版本与选择建议

根据 FunASR 的部署需求,该镜像提供多版本细分,适配不同场景:

镜像版本类型核心特性适配场景推荐标签
中文 CPU 版Ubuntu 20.04 基础,ARM64 兼容,低内存占用通用中文场景、无 GPU 环境、普通服务器latest 或 cpu
中文 GPU 版基于 NVIDIA CUDA,动态批处理,高识别速度高性能中文场景、批量长音频转写、高并发gpu 或 cuda
英文 CPU 版专为英语语音优化,修复内存泄漏问题英文语音识别、海外业务、英文会议en-cpu
实时服务版低延迟流式处理,支持实时请求响应实时语音交互、智能助手、实时字幕online
版本选择建议
  1. 普通服务器、预算有限:选择 CPU 版本
  2. 需要高性能、有 GPU 资源:选择 GPU 版本
  3. 主要是英文识别:选择英文版本
  4. 需要实时交互:选择实时服务版

四、前置准备

4.1 硬件与软件要求
项目要求
硬件CPU:多核处理器;GPU(可选):NVIDIA GPU 支持 CUDA
操作系统Linux(推荐 Ubuntu 20.04+),macOS(Docker Desktop),Windows(WSL2)
容器工具Docker 19.03+,如需 GPU 需安装 NVIDIA Container Runtime
存储空间建议预留 ≥2GB(镜像) + 模型文件空间
网络环境首次使用需联网下载模型,建议***或使用国内镜像源
4.2 GPU 环境准备(如使用 GPU 版本)
bash
# 安装 NVIDIA Container Runtime
# Ubuntu/Debian
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -fsSL [***] | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L [***] | \
  sed 's#deb [***] [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] [***] | \
  sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

# 验证 GPU 支持
docker run --rm --gpus all nvidia/cuda:12.0.0-base-ubuntu22.04 nvidia-smi

五、镜像拉取与启动

5.1 拉取镜像
bash
# 拉取最新版本
docker pull xuanyuan.cloud/r/guiji2025/fun-asr:latest

# 拉取 GPU 版本
docker pull xuanyuan.cloud/r/guiji2025/fun-asr:gpu

# 拉取英文版本
docker pull xuanyuan.cloud/r/guiji2025/fun-asr:en-cpu
5.2 基础启动命令
CPU 版本启动
bash
docker run -d \
  --name fun-asr \
  -p ***:*** \
  -v /宿主机/模型路径:/root/funasr-runtime-resources \
  xuanyuan.cloud/r/guiji2025/fun-asr:latest
GPU 版本启动
bash
docker run -d \
  --name fun-asr-gpu \
  --runtime=nvidia \
  --privileged=true \
  -p ***:*** \
  -v /宿主机/模型路径:/root/funasr-runtime-resources \
  -w /workspace/FunASR/runtime \
  xuanyuan.cloud/r/guiji2025/fun-asr:gpu \
  sh /run.sh
完整 docker-compose 配置示例

参考 HeyGem AI 数字人项目的实际应用:

yaml
version: '3.8'

services:
  heygem-asr:
    image: guiji2025/fun-asr
    container_name: heygem-asr
    restart: always
    runtime: nvidia  # 启用 GPU 加速
    privileged: true
    working_dir: /workspace/FunASR/runtime
    ports:
      - '***:***'  # 服务端口
    volumes:
      - ./models:/root/funasr-runtime-resources  # 模型目录挂载
    command: sh /run.sh  # 启动服务脚本
5.3 参数说明
参数说明示例
-p ***:***映射服务端口(FunASR 默认端口)宿主机端口:容器端口
--runtime=nvidia启用 GPU 支持(GPU 版本必需)-
--privileged=true赋予容器特权(部分场景需要)-
-w /workspace/FunASR/runtime设置工作目录FunASR 运行目录
-v /宿主机/模型路径:/root/funasr-runtime-resources挂载模型目录到容器模型与配置目录
sh /run.sh启动服务脚本GPU 版本默认命令

六、API 使用示例

6.1 单音频文件识别
bash
curl -X POST "http://localhost:***/asr" \
  -H "Content-Type: application/json" \
  -d '{
    "audio": "base64_encoded_audio_data",
    "format": "wav",
    "language": "zh"
  }'
6.2 批量文件识别(使用 wav.scp)

创建 wav.scp 文件:

audio001 /path/to/audio001.wav
audio002 /path/to/audio002.wav
audio003 /path/to/audio003.wav

容器内执行:

bash
docker exec -it fun-asr bash
cd /workspace/FunASR/runtime
./run.sh --wav.scp /path/to/wav.scp --output-dir /path/to/output
6.3 Python SDK 调用示例
python
import requests
import base64

# 读取音频文件
with open("audio.wav", "rb") as f:
    audio_data = base64.b64encode(f.read()).decode('utf-8')

# 调用 ASR API
url = "http://localhost:***/asr"
payload = {
    "audio": audio_data,
    "format": "wav",
    "language": "zh"  # zh: 中文, en: 英文
}

response = requests.post(url, json=payload)
result = response.json()
print(f"识别结果: {result.get('text', '')}")
6.4 实时流式识别
python
import websocket
import json

# WebSocket 连接到实时服务
ws = websocket.WebSocket()
ws.connect("ws://localhost:***/asr-stream")

# 发送音频数据流
# ... (音频流处理逻辑)

# 接收识别结果
result = ws.recv()
print(f"实时识别: {result}")

ws.close()

七、模型配置与替换

7.1 默认模型路径

容器内模型与资源目录:

bash
/root/funasr-runtime-resources
7.2 使用自定义微调模型

如需替换为自定义模型,将模型文件挂载到容器:

bash
docker run -d \
  --name fun-asr-custom \
  -p ***:*** \
  -v /宿主机/自定义模型:/root/funasr-runtime-resources \
  xuanyuan.cloud/r/guiji2025/fun-asr:latest
7.3 模型来源
  • 官方模型:镜像内置的 ASR 模型(如 Paraformer-large)来自 ModelScope 社区
  • 自定义模型:支持替换为自定义微调模型
  • 模型格式:支持 FunASR 兼容的模型格式

八、测试与验证

8.1 容器状态检查
bash
# 查看容器运行状态
docker ps | grep fun-asr

# 查看日志
docker logs -f fun-asr

# 进入容器调试
docker exec -it fun-asr bash
8.2 使用 samples 工具测试

进入容器后,使用 FunASR 内置的 samples 工具测试识别效果:

bash
docker exec -it fun-asr bash
cd /root/funasr-runtime-resources/samples

# 运行测试脚本
./test.sh
8.3 测试 API 连接
bash
# 检查服务健康状态
curl http://localhost:***/health

# 发送测试请求
curl -X POST "http://localhost:***/asr" \
  -H "Content-Type: application/json" \
  -d '{"test": "ping"}'

九、典型应用场景

9.1 AI 数字人语音服务

在 AI 数字人项目中集成 ASR 能力,实现语音交互:

yaml
# docker-compose.yml 配置
digital-human:
  services:
    # AI 数字人交互模块
    interaction:
      image: digital-human-core
      depends_on:
        - asr-service
    
    # ASR 语音识别服务
    asr-service:
      image: guiji2025/fun-asr
      ports:
        - '***:***'
9.2 会议录音批量转写

处理大量会议录音,实现自动化转写:

bash
# 批量转写脚本示例
docker exec -it fun-asr bash

for audio in /data/meetings/*.wav; do
    ./run.sh --audio "$audio" --output "/data/transcripts/$(basename $audio).txt"
done
9.3 智能客服语音输入

集成到智能客服系统,支持实时语音输入:

python
# 客服系统集成示例
from funasr import ASR

# 初始化 ASR 客户端
asr_client = ASR(api_url="[***]")

# 处理客服语音输入
def process_customer_voice(audio_stream):
    text = asr_client.transcribe(audio_stream)
    return handle_customer_query(text)
9.4 视频字幕自动生成

为视频内容自动生成字幕文件:

bash
# 视频转字幕流程
# 1. 提取音频
docker exec -it fun-asr ffmpeg -i video.mp4 audio.wav

# 2. 识别转文字
docker exec -it fun-asr ./run.sh --audio audio.wav --output subtitle.srt

十、性能优化建议

10.1 内存优化
bash
# 限制容器内存使用
docker run -d \
  --name fun-asr \
  --memory="4g" \
  --memory-swap="4g" \
  -p ***:*** \
  xuanyuan.cloud/r/guiji2025/fun-asr:latest
10.2 CPU 核心限制
bash
# 限制 CPU 使用核心数
docker run -d \
  --name fun-asr \
  --cpus="4" \
  -p ***:*** \
  xuanyuan.cloud/r/guiji2025/fun-asr:latest
10.3 批量处理优化

对于大批量文件,建议使用 GPU 版本并调整批处理参数:

bash
# GPU 版本 + 动态批处理
docker run -d \
  --name fun-asr-gpu \
  --runtime=nvidia \
  -p ***:*** \
  -e BATCH_SIZE=32 \
  -e MAX_CONCURRENT_REQUESTS=100 \
  xuanyuan.cloud/r/guiji2025/fun-asr:gpu

十一、常见问题与解决方案(FAQ)

问题现象可能原因解决方案
容器启动失败端口冲突或资源不足检查端口 *** 是否被占用;调整内存/CPU 限制
GPU 不可用未安装 NVIDIA Container Runtime安装 nvidia-container-toolkit 并重启 Docker
识别准确率低音频质量差或采样率不匹配确保音频清晰、无噪声;检查采样率(推荐 16kHz/8kHz)
批量处理速度慢未使用 GPU 或批处理设置不当切换到 GPU 版本;调整 batch_size 参数
实时识别延迟高网络延迟或资源不足检查网络状况;增加 CPU/GPU 资源
模型加载失败模型路径错误或文件损坏检查挂载路径;重新下载模型文件
英文识别效果差使用中文版本处理英文切换至英文版本(en-cpu 标签)
并发处理崩溃内存不足或线程数过多限制并发数量;增加容器内存

十二、进阶配置

12.1 自定义配置

挂载自定义配置文件:

bash
docker run -d \
  --name fun-asr-custom \
  -p ***:*** \
  -v /宿主机/config:/root/funasr-runtime-resources/config \
  xuanyuan.cloud/r/guiji2025/fun-asr:latest
12.2 日志管理

挂载日志目录到宿主机:

bash
docker run -d \
  --name fun-asr \
  -p ***:*** \
  -v /宿主机/logs:/workspace/FunASR/runtime/logs \
  xuanyuan.cloud/r/guiji2025/fun-asr:latest
12.3 多语言切换
bash
# 设置识别语言
docker run -d \
  --name fun-asr-multilang \
  -p ***:*** \
  -e LANGUAGE=zh  # zh: 中文, en: 英文
docker run -d \
  --name fun-asr-multilang \
  -p ***:*** \
  -e LANGUAGE=zh  # zh: 中文, en: 英文
  xuanyuan.cloud/r/guiji2025/fun-asr:latest

十三、参考资源

  • FunASR 官方网站:<[***]>
  • ModelScope 模型社区:<[***]>
  • FunASR 官方文档:<[***]>
  • 阿里达摩院语音实验室:<[***]>
  • HeyGem AI 数字人项目:(如有公开链接)

注意:本镜像基于阿里达摩院 FunASR 开源工具包构建,建议根据实际场景选择合适的版本(CPU/GPU、中文/英文)。首次使用建议从 CPU 版本开始测试,确保环境配置正确后再部署生产环境。

镜像拉取方式

您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 版本下载页面。

国内拉取方式

docker pull docker.xuanyuan.run/guiji2025/fun-asr:<标签>

使用方法:

  • 登录认证方式
  • 免认证方式

官方拉取方式

docker pull guiji2025/fun-asr:<标签>

相关镜像推荐

guiji2025/fish-speech-ziming logo
guiji2025/fish-speech-ziming
by guiji2025
fish-speech-ziming:基于 Fish Speech 1.5 的多语言 TTS Docker 镜像,开箱即用,支持中文/英语/日语等 8 种语言文本到语音、语音克隆与 LoRA 微调;推理≥4GB 显存可用,集成 PyTorch 与依赖,提供 WebUI 与 API 模式。
2100K+ pulls
上次更新:3 个月前
guiji2025/heygem.ai logo
guiji2025/heygem.ai
by guiji2025
暂无描述
4100K+ pulls
上次更新:7 个月前
guiji2025/duix.avatar logo
guiji2025/duix.avatar
by guiji2025
暂无描述
10K+ pulls
上次更新:3 个月前
guiji2025/heygem.ai-5090 logo
guiji2025/heygem.ai-5090
by guiji2025
暂无描述
10K+ pulls
上次更新:7 个月前
查看更多 fun-asr 相关镜像

用户好评

来自真实用户的反馈,见证轩辕镜像的优质服务

oldzhang的头像

oldzhang

运维工程师

Linux服务器

5

"Docker访问体验非常流畅,大镜像也能快速完成下载。"

用户评价详情

oldzhang - 运维工程师

Linux服务器

5

Docker访问体验非常流畅,大镜像也能快速完成下载。

Nana - 后端开发

Mac桌面

4.9

配置Docker镜像源后,拉取速度快了数倍,开发体验提升明显。

Qiang - 平台研发

K8s集群

5

轩辕镜像在K8s集群中表现很稳定,容器部署速度明显加快。

小敏 - 测试工程师

Windows桌面

4.8

Docker镜像下载不再超时,测试环境搭建更加高效。

晨曦 - DevOps工程师

宝塔面板

5

配置简单,Docker镜像源稳定,适合快速部署环境。

阿峰 - 资深开发

群晖NAS

5

在群晖NAS上配置后,镜像下载速度飞快,非常适合家庭实验环境。

俊仔 - 后端工程师

飞牛NAS

4.9

Docker访问让容器搭建顺畅无比,再也不用等待漫长的下载。

Lily - 测试经理

Linux服务器

4.8

镜像源覆盖面广,更新及时,团队一致反馈体验不错。

浩子 - 云平台工程师

Podman容器

5

使用轩辕镜像后,Podman拉取镜像稳定无比,生产环境可靠。

Kai - 运维主管

爱快路由

5

爱快系统下配置访问服务,Docker镜像拉取速度提升非常大。

翔子 - 安全工程师

Linux服务器

4.9

镜像源稳定性高,安全合规,Docker拉取无忧。

亮哥 - 架构师

K8s containerd

5

大规模K8s集群下镜像效果显著,节省了大量时间。

慧慧 - 平台开发

Docker Compose

4.9

配置Compose镜像后,整体构建速度更快了。

Tina - 技术支持

Windows桌面

4.8

配置简单,镜像拉取稳定,适合日常开发环境。

宇哥 - DevOps Leader

极空间NAS

5

在极空间NAS上使用Docker访问,体验流畅稳定。

小静 - 数据工程师

Linux服务器

4.9

Docker镜像源下载速度快,大数据环境搭建轻松完成。

磊子 - SRE

宝塔面板

5

使用轩辕镜像后,CI/CD流程整体快了很多,值得推荐。

阿Yang - 前端开发

Mac桌面

4.9

国内网络环境下,Docker访问非常给力,前端环境轻松搭建。

Docker迷 - 架构师

威联通NAS

5

威联通NAS下配置镜像后,Docker体验比官方源好很多。

方宇 - 系统工程师

绿联NAS

5

绿联NAS支持访问配置,Docker镜像下载快且稳定。

常见问题

轩辕镜像免费版与专业版有什么区别?

免费版仅支持 Docker Hub 访问,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。

轩辕镜像免费版与专业版有分别支持哪些镜像?

免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。

流量耗尽错误提示

当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。

410 错误问题

通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。

manifest unknown 错误

先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。

镜像拉取成功后,如何去掉轩辕镜像域名前缀?

使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。

查看全部问题→

轩辕镜像配置使用手册

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式

登录仓库拉取

通过 Docker 登录认证访问私有仓库

Linux

在 Linux 系统配置镜像服务

Windows/Mac

在 Docker Desktop 配置镜像

Docker Compose

Docker Compose 项目配置

K8s Containerd

Kubernetes 集群配置 Containerd

K3s

K3s 轻量级 Kubernetes 镜像加速

宝塔面板

在宝塔面板一键配置镜像

群晖

Synology 群晖 NAS 配置

飞牛

飞牛 fnOS 系统配置镜像

极空间

极空间 NAS 系统配置服务

爱快路由

爱快 iKuai 路由系统配置

绿联

绿联 NAS 系统配置镜像

威联通

QNAP 威联通 NAS 配置

Podman

Podman 容器引擎配置

Singularity/Apptainer

HPC 科学计算容器配置

其他仓库配置

ghcr、Quay、nvcr 等镜像仓库

专属域名拉取

无需登录使用专属域名

需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单

轩辕镜像
镜像详情
...
guiji2025/fun-asr
官方博客Docker 镜像使用技巧与技术博客热门镜像查看热门 Docker 镜像推荐提交工单
轩辕镜像 · 专业版提供 SLA 级可用性指标 · 免费版为公共服务,可能存在不可用情况。请提交工单获取在线技术支持,欢迎加入官方QQ群:13763429 进行技术交流。
面向开发者与科研用户,提供开源镜像的搜索和访问支持。所有镜像均来源于原始仓库,本站不存储、不修改、不传播任何内容。
轩辕镜像 · 专业版提供 SLA 级可用性指标 · 免费版为公共服务,可能存在不可用情况。请提交工单获取在线技术支持,欢迎加入官方QQ群: 进行技术交流。
面向开发者与科研用户,提供开源镜像的搜索和访问支持。所有镜像均来源于原始仓库,本站不存储、不修改、不传播任何内容。
商务:17300950906
©2024-2025 源码跳动
商务合作电话:17300950906Copyright © 2024-2025 杭州源码跳动科技有限公司. All rights reserved.
轩辕镜像
轩辕镜像专业版
个人中心搜索镜像
交易
充值流量我的订单
工具
提交工单镜像收录一键安装
Npm 源Pip 源Homebrew 源
帮助
常见问题
其他
关于我们网站地图

官方QQ群: 13763429