
bytez/roshna-omer_whisper-small-kurdish-sorani该Docker镜像封装了roshna-omer/whisper-small-Kurdish-Sorani模型,主要用于库尔德语索拉尼方言的自动语音识别(automatic-speech-recognition)任务。通过容器化部署,可便捷地在本地环境运行模型,提供语音转文本功能,并支持灵活的配置与扩展。
bashdocker pull bytez/roshna-omer_whisper-small-kurdish-sorani
bashdocker run -it \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -e PORT=8000 \ -p 8000:8000 \ bytez/roshna-omer_whisper-small-kurdish-sorani
如需使用其他端口(如80端口):
bashdocker run -it \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -e PORT=80 \ -p 80:80 \ bytez/roshna-omer_whisper-small-kurdish-sorani
为避免重复下载大模型权重,可将权重目录挂载到本地:
bashdocker run -it \ -v /本地缓存目录路径:/server/model \ -e HF_HOME=/server/model \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -p 8000:8000 \ -e PORT=8000 \ bytez/roshna-omer_whisper-small-kurdish-sorani
示例(Linux系统):
bashdocker run -it \ -v /home/user/models:/server/model \ -e HF_HOME=/server/model \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -p 8000:8000 \ -e PORT=8000 \ bytez/roshna-omer_whisper-small-kurdish-sorani
确保已安装Nvidia驱动和CUDA,添加--gpus all参数:
bashdocker run -it \ --gpus all \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -p 8000:8000 \ -e PORT=8000 \ bytez/roshna-omer_whisper-small-kurdish-sorani
bashdocker run -it \ --gpus all \ -v /本地缓存目录路径:/server/model \ -e HF_HOME=/server/model \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -p 8000:8000 \ -e PORT=8000 \ bytez/roshna-omer_whisper-small-kurdish-sorani
容器启动后,通过HTTP POST请求发送语音数据进行识别:
bashcurl --location 'http://0.0.0.0:8000/run' \ --header 'Content-Type: application/json' \ --data-raw '{ "b64AudioBufferWav": "INSERT_B64_WAV_AUDIO_HERE", "params": { "forward_params": { "language": "kurdish-sorani", "task": "transcribe" } } }'
注:
INSERT_B64_WAV_AUDIO_HERE需替换为WAV格式音频文件的Base64编码字符串
| 环境变量 | 说明 | 默认值 | 可选值 |
|---|---|---|---|
KEY | Bytez API密钥(必需) | - | 从Bytez获取的API密钥 |
PORT | 容器内服务端口 | 8000 | 任意未占用端口 |
DEVICE | 运行设备 | auto | auto(自动检测)、cuda(GPU)、cpu(CPU) |
HF_HOME | 模型权重存储路径 | - | 容器内路径,配合-v挂载本地目录使用 |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
max_length | int | 生成 tokens 的最大长度 | 20 |
max_new_tokens | int | 生成 tokens 的最大数量(忽略输入 prompt 长度) | - |
min_length | int | 生成序列的最小长度 | 0 |
min_new_tokens | int | 生成 tokens 的最小数量(忽略输入 prompt 长度) | - |
early_stopping | bool/str | 束搜索的停止条件控制 | False |
max_time | float | 计算的最大时间限制(秒) | - |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
do_sample | bool | 是否使用采样而非贪婪解码 | False |
num_beams | int | 束搜索的束数量 | 1 |
num_beam_groups | int | 束组数量(用于束多样性) | 1 |
penalty_alpha | float | 模型置信度与退化惩罚的平衡参数 | - |
use_cache | bool | 是否使用缓存加速解码 | True |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
temperature | float | 调节下一个 token 概率的温度参数 | 1 |
top_k | int | top-k 过滤保留的最高概率词汇数 | 50 |
top_p | float | top-p 过滤的累积概率阈值 | 1 |
typical_p | float | 局部典型性阈值 | 1 |
epsilon_cutoff | float | 截断采样的概率阈值 | 0 |
eta_cutoff | float | Eta 采样的概率阈值 | 0 |
diversity_penalty | float | 束组多样性惩罚 | 0 |
repetition_penalty | float | 重复惩罚参数 | 1 |
encoder_repetition_penalty | float | 编码器重复惩罚参数 | 1 |
length_penalty | float | 长度惩罚参数 | 1 |
no_repeat_ngram_size | int | 禁止重复的 ngram 大小 | 0 |
bad_words_ids | List[List[int]] | 禁止生成的 token id 列表 | - |
force_words_ids | List[List[int]] | 强制生成的 token id 列表 | - |
renormalize_logits | bool | 是否在处理后重新归一化 logits | false |
constraints | List[Constraint] | 生成约束条件 | - |
forced_bos_token_id | int | 强制的序列起始 token id | 模型配置值 |
forced_eos_token_id | int/List[int] | 强制的序列结束 token id | 模型配置值 |
remove_invalid_values | bool | 是否移除无效值(nan/inf) | 模型配置值 |
exponential_decay_length_penalty | tuple(int, float) | 指数衰减长度惩罚 | - |
suppress_tokens | List[int] | 抑制生成的 token 列表 | - |
begin_suppress_tokens | List[int] | 生成开始时抑制的 token 列表 | - |
forced_decoder_ids | List[List[int]] | 强制解码的 token 映射 | - |
sequence_bias | Dict[Tuple[int], float] | 序列偏置字典 | - |
guidance_scale | float | 分类器自由引导比例 | - |
low_memory | bool | 是否启用低内存模式 | - |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
num_return_sequences | int | 每个输入返回的独立序列数 | 1 |
output_attentions | bool | 是否返回注意力张量 | false |
output_hidden_states | bool | 是否返回隐藏状态 | false |
output_scores | bool | 是否返回预测分数 | false |
output_logits | bool | 是否返回未处理的 logits | - |
return_dict_in_generate | bool | 是否返回 ModelOutput 对象 | false |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
pad_token_id | int | 填充 token id | - |
bos_token_id | int | 序列开始 token id | - |
eos_token_id | int/List[int] | 序列结束 token id | - |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
encoder_no_repeat_ngram_size | int | 编码器输入中禁止重复的 ngram 大小 | 0 |
decoder_start_token_id | int/List[int] | 解码器起始 token id | - |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
num_assistant_tokens | int | 辅助模型生成的推测 token 数 | 5 |
num_assistant_tokens_schedule | str | 辅助 token 调度策略 | heuristic |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
cache_implementation | str | 生成时使用的缓存实现 | null |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
generation_kwargs | object | 传递给 generate 函数的额外参数 | - |
完整参数列表参见 Hugging Face 文档
本地运行模型可增强隐私保护、提高控制度并支持自定义配置,助力各类语音识别应用开发。



探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务