本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com
llama.cpp社区版发布容器是基于seemeai/llama-cpp镜像构建的工具容器,专注于llama.cpp支持模型的转换、量化处理与功能验证。通过容器化方案简化模型处理流程,支持多种量化精度,帮助开发者快速适配不同硬件资源环境,验证模型性能。
convert.py脚本将原始模型权重转换为llama.cpp兼容的GGUF格式main工具执行推理测试,验证量化后模型的文本生成能力数据目录配置
创建本地数据目录(如/data_folder_with_all_models),并将模型权重及配置文件存放于${data_dir}/llama-data/${model}/路径下(${model}为模型名称,如mixtral-7b)。
镜像信息
基础镜像:seemeai/llama-cpp:b1632-cuda12.1(含CUDA 12.1支持,需GPU环境可启用硬件加速)
将原始模型转换为GGUF格式(f16精度):
data_dir=/data_folder_with_all_models # 本地模型数据根目录 model=mixtral-7b # 模型名称(对应数据目录下的子文件夹) image=seemeai/llama-cpp:b1632-cuda12.1 docker run -it --shm-size=64G -v $data_dir:/models \ --entrypoint python $image \ /code/llama.cpp/convert.py /models/llama-data/$model/ --vocab-dir /models
--shm-size=64G:设置共享内存大小(大模型转换需足够内存)-v $data_dir:/models:挂载本地数据目录到容器内/models路径${data_dir}/llama-data/${model}/ggml-model-f16.gguf对转换后的f16模型执行多格式量化:
# 定义需量化的格式列表(可根据需求调整) quantizations=( q2_k q3_k_l q3_k_m q4_0 q4_1 q4_k_s q5_0 q5_1 q5_k_m q5_k_s q6_k q8_0 ) for quantize in "${quantizations[@]}"; do docker run -it --shm-size=64G -v $data_dir:/models \ --entrypoint /code/llama.cpp/quantize $image \ /models/llama-data/$model/ggml-model-f16.gguf \ /models/llama-data/$model/ggml-model-$quantize.gguf \ $quantize done
${data_dir}/llama-data/${model}/ggml-model-${quantize}.gguf(如ggml-model-q4_0.gguf)bin_folder=/build/bin,修改entrypoint为/code/llama.cpp/build/bin/quantize对量化后的模型执行推理测试:
# 以q4_0量化模型为例 docker run -it --shm-size=64G -v $data_dir:/models \ --entrypoint /code/llama.cpp/main $image \ -m /models/llama-data/$model/ggml-model-q4_0.gguf \ -p "Building a website can be done in 10 simple steps:\nStep 1:" \ -n 400 -e -t 16 # -ngl 40 # 启用GPU加速时添加,指定GPU卸载层数
-m:量化后模型文件路径-p:输入提示文本-n:生成文本长度(tokens数)-t:推理线程数-ngl:GPU卸载层数(需CUDA环境,默认禁用)| 参数 | 说明 | 默认值 |
|---|---|---|
data_dir | 本地模型数据根目录,需包含llama-data/${model}子目录 | /data_folder_with_all_models |
model | 模型名称,对应数据目录下的子文件夹名称 | mixtral-7b |
ngl | GPU卸载层数(仅CUDA版本有效),0表示纯CPU推理 | 40 |
quantizations | 需执行的量化格式列表,可按需增删 | (q2_k q3_k_l q3_k_m q4_0 q4_1 q4_k_s q5_0 q5_1 q5_k_m q5_k_s q6_k q8_0) |
bin_folder | Legacy版本二进制文件路径,新版本无需设置 | 空(Legacy版本设为/build/bin) |
免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤
在 Linux 系统上配置轩辕镜像源,支持主流发行版
在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统
在 Docker Compose 中使用轩辕镜像加速,支持容器编排
在 k8s 中配置 containerd 使用轩辕镜像加速
在宝塔面板中配置轩辕镜像加速,提升服务器管理效率
在 Synology 群晖NAS系统中配置轩辕镜像加速
在飞牛fnOS系统中配置轩辕镜像加速
在极空间NAS中配置轩辕镜像加速
在爱快ikuai系统中配置轩辕镜像加速
在绿联NAS系统中配置轩辕镜像加速
在威联通NAS系统中配置轩辕镜像加速
在 Podman 中配置轩辕镜像加速,支持多系统
配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤
无需登录即可使用轩辕镜像加速服务,更加便捷高效
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429