
bytez/samil24_whisper-large-sorani-v1samil24/whisper-large-sorani-v1是一个容器化的自动语音识别(automatic-speech-recognition)模型,基于Whisper-large架构优化,适用于Sorani语言及多语言语音转文本任务。该镜像支持本地部署,提供灵活的参数配置、GPU加速及模型权重本地缓存功能,需通过Bytez API密钥激活使用。
language参数)及转录/翻译任务(通过task参数控制)--gpus参数启用bashdocker pull bytez/samil24_whisper-large-sorani-v1
bashdocker run -it \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -e PORT=8000 \ -p 8000:8000 \ bytez/samil24_whisper-large-sorani-v1
如需使用其他端口(如80端口):
bashdocker run -it \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -e PORT=80 \ -p 80:80 \ bytez/samil24_whisper-large-sorani-v1
为避免重复下载大模型权重,可将权重保存至本地目录:
bashdocker run -it \ -v /本地缓存目录路径:/server/model \ -e HF_HOME=/server/model \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -p 8000:8000 \ -e PORT=8000 \ bytez/samil24_whisper-large-sorani-v1
示例(Linux系统):
bashdocker run -it \ -v /home/user/models:/server/model \ -e HF_HOME=/server/model \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -p 8000:8000 \ -e PORT=8000 \ bytez/samil24_whisper-large-sorani-v1
确保已安装Nvidia驱动及CUDA,添加--gpus all参数:
bashdocker run -it \ --gpus all \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -p 8000:8000 \ -e PORT=8000 \ bytez/samil24_whisper-large-sorani-v1
bashdocker run -it \ --gpus all \ -v /本地缓存目录路径:/server/model \ -e HF_HOME=/server/model \ -e KEY=YOUR_BYTEZ_API_KEY_HERE \ -p 8000:8000 \ -e PORT=8000 \ bytez/samil24_whisper-large-sorani-v1
容器运行后,通过HTTP POST请求进行语音识别:
bashcurl --location 'http://0.0.0.0:8000/run' \ --header 'Content-Type: application/json' \ --data-raw '{ "b64AudioBufferWav": "BASE64编码的WAV音频数据", "params": { "forward_params": { "language": "french", // 指定语言(如"sorani"、"english"等) "task": "transcribe" // "transcribe"(转录)或"translate"(翻译) } } }'
| 环境变量 | 说明 | 默认值 | 可选值 |
|---|---|---|---|
KEY | Bytez API密钥(必填) | - | 从Bytez获取的API密钥 |
PORT | 容器内部端口 | 8000 | 任意未占用端口 |
DEVICE | 运行设备 | auto | auto(自动检测)、cuda(GPU)、cpu(CPU) |
HF_HOME | 模型权重缓存路径 | - | 容器内路径(需配合-v挂载本地目录) |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
max_length | int | 生成 tokens 的最大长度 | 20 |
max_new_tokens | int | 生成的新 tokens 最大数量(忽略提示中的 tokens) | - |
min_length | int | 生成序列的最小长度 | 0 |
min_new_tokens | int | 生成的新 tokens 最小数量(忽略提示中的 tokens) | - |
early_stopping | bool/str | 控制基于beam的方法的停止条件 | False |
max_time | float | 计算的最大运行时间 | - |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
do_sample | bool | 是否使用采样(而非贪婪解码) | False |
num_beams | int | beam搜索的beam数量 | 1 |
num_beam_groups | int | 用于beam多样性的组数 | 1 |
penalty_alpha | float | 平衡模型置信度与退化惩罚 | - |
use_cache | bool | 是否使用缓存加速解码 | True |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
temperature | float | 调制下一个token概率的温度值 | 1 |
top_k | int | top-k过滤保留的最高概率词汇token数量 | 50 |
top_p | float | 累积概率达到该值的最小token集 | 1 |
typical_p | float | 局部典型性阈值 | 1 |
epsilon_cutoff | float | 条件概率阈值(仅保留高于该值的token) | 0 |
eta_cutoff | float | Eta采样阈值 | 0 |
diversity_penalty | float | 组beam搜索中的多样性惩罚 | 0 |
repetition_penalty | float | 重复惩罚参数(1.0表示无惩罚) | 1 |
encoder_repetition_penalty | float | 编码器重复惩罚参数 | 1 |
length_penalty | float | 长度惩罚指数(>0促进长序列,<0促进短序列) | 1 |
no_repeat_ngram_size | int | 禁止重复的n-gram大小(>0时生效) | 0 |
bad_words_ids | List[List[int]] | 禁止生成的token id列表 | - |
force_words_ids | List[List[int]] | 必须生成的token id列表 | - |
renormalize_logits | bool | 应用logits处理器后是否重新归一化 | false |
constraints | List[Constraint] | 自定义生成约束 | - |
forced_bos_token_id | int | 强制作为第一个生成token的id | 模型配置默认值 |
forced_eos_token_id | int/List[int] | 强制作为结束token的id | 模型配置默认值 |
remove_invalid_values | bool | 是否移除nan/inf输出 | 模型配置默认值 |
exponential_decay_length_penalty | tuple(int, float) | 指数衰减长度惩罚(起始索引, 衰减因子) | - |
suppress_tokens | List[int] | 生成时抑制的token列表 | - |
begin_suppress_tokens | List[int] | 生成开始时抑制的token列表 | - |
forced_decoder_ids | List[List[int]] | 强制生成的token映射(生成索引→token id) | - |
sequence_bias | Dict[Tuple[int], float] | 序列偏置(键为token序列,值为偏置项) | - |
guidance_scale | float | 分类器自由引导的引导尺度(>1启用) | - |
low_memory | bool | 是否启用低内存模式 | - |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
num_return_sequences | int | 每个输入返回的独立序列数 | 1 |
output_attentions | bool | 是否返回注意力张量 | false |
output_hidden_states | bool | 是否返回所有层的隐藏状态 | false |
output_scores | bool | 是否返回预测分数 | false |
output_logits | bool | 是否返回未处理的logit分数 | - |
return_dict_in_generate | bool | 是否返回ModelOutput对象 | false |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
pad_token_id | int | 填充token的id | - |
bos_token_id | int | 序列开始token的id | - |
eos_token_id | int/List[int] | 序列结束token的id | - |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
encoder_no_repeat_ngram_size | int | 编码器输入中禁止在解码器中出现的n-gram大小 | 0 |
decoder_start_token_id | int/List[int] | 解码器开始token的id | 模型配置默认值 |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
num_assistant_tokens | int | 辅助模型生成的推测token数量 | 5 |
num_assistant_tokens_schedule | str | 推测token数量的调度策略 | heuristic |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
cache_implementation | str | 生成时使用的缓存类 | null |
| 参数 | 类型 | 说明 | 默认值 |
|---|---|---|---|
generation_kwargs | object | 转发给模型generate函数的额外参数 | - |
完整参数列表参考Hugging Face Transformers文档



探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务