本站支持搜索的镜像仓库：Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

samueltallet/alpine-llama-cpp-server

基于Alpine的轻量级LLaMA.cpp HTTP服务器镜像

1 收藏0 次下载activesamueltallet镜像

🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

中文简介版本下载

🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

Alpine LLaMA: 轻量级LLaMA.cpp HTTP服务镜像

Alpine LLaMA是一个超紧凑的Docker镜像（小于10 MB），提供基于LLaMA.cpp的HTTP服务器，用于语言模型推理。

Docker镜像大小 ‍ 支持树莓派

镜像概述和主要用途

Alpine LLaMA是一个基于Alpine Linux构建的轻量级Docker镜像，封装了LLaMA.cpp HTTP服务器，用于运行GGUF格式的语言模型进行推理。该镜像设计极致紧凑，总大小不到10 MB，特别适合资源受限环境。

核心功能和特性

超小镜像体积（<10 MB），节省磁盘空间和带宽
完整的LLaMA.cpp功能支持，包括最新推理特性
OpenAI兼容的Chat Completions API端点
内置模型自动下载和缓存功能
支持多种模型来源（Hugging Face仓库、URL下载或本地文件）
树莓派和ARM架构支持
纯CPU推理能力，无需GPU支持

使用场景和适用范围

该Docker镜像特别适合以下场景：

磁盘空间有限或带宽较低的环境
无法进行GPU加速推理的服务器，如纯CPU的VPS或树莓派
需要快速部署轻量级LLM推理服务的场景
开发和测试环境中的本地LLM服务
资源受限设备上的AI应用原型验证

使用方法和配置说明

快速开始

您可以使用以下命令部署一个基于LFM2 350M语言模型的HTTP推理服务器：

docker run --name alpine-llama -p 80:8080 -e LLAMA_API_KEY=sk-xxxx -e LLAMA_ARG_MODEL_URL=[***] samueltallet/alpine-llama-cpp-server

当GGUF模型文件下载完成（并缓存在Docker容器文件系统中）后，您可以查询暴露的OpenAI兼容Chat Completions API端点。

例如，您可以使用以下命令对反馈进行情感分类：

curl -s [***] \
  -H 'Authorization: Bearer sk-xxxx' \
  -d '{
    "messages": [
      { "role": "user", "content": "将此反馈的情感准确分类为一个词（积极、中性或消极）：这个应用程序并非在所有场景下都有效，但我认为它有潜力。" }
    ],
    "temperature": 0,
    "max_tokens": 2
  }' | jq '.choices[0].message.content'
# > "中性"

上述脚本注意事项：

如果远程运行docker，请将127.0.0.1替换为您的服务器IP
生产环境中，请使用您自己的强密钥代替sk-xxxx
在Debian-based系统上，可以通过sudo apt install jq安装jq

Docker Compose配置示例

以下是一个使用docker-compose部署的示例：

version: '3'
services:
  alpine-llama:
    image: samueltallet/alpine-llama-cpp-server
    container_name: alpine-llama
    ports:
      - "8080:8080"
    environment:
      - LLAMA_API_KEY=sk-your-secure-api-key-here
      - LLAMA_ARG_MODEL_URL=[***]
      - LLAMA_ARG_ALIAS=LFM2-350M
    restart: unless-stopped
    volumes:
      - ./llama-models:/app/models  # 可选：持久化存储模型文件

配置参数

您可以通过环境变量配置Alpine LLaMA服务器：

环境变量	描述	示例值
`LLAMA_ARG_HF_REPO`	Hugging Face模型仓库	`bartowski/Llama-3.2-1B-Instruct-GGUF`
`LLAMA_ARG_HF_FILE`	Hugging Face仓库中的模型文件名	`Llama-3.2-1B-Instruct-Q4_K_M.gguf`
`LLAMA_ARG_MODEL`	本地模型文件路径	`/home/you/LLMs/Llama-3.2-1B.gguf`
`LLAMA_ARG_MODEL_URL`	模型文件下载URL	`[***]`
`LLAMA_API_KEY`	HTTP API请求认证密钥	`sk-n5V9UAJt6wRFfZQ4eDYk37uGzbKXdpNj`
`LLAMA_ARG_ALIAS`	模型在HTTP API请求中的别名	`Llama-3.2-1B`