
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
https://github.com/EvilFreelancer/docker-llama.cpp-rpc%E6%89%98%E7%AE%A1%E4%BA%8EGitHub%E3%80%82
本项目基于https://github.com/ggerganov/llama.cpp%E6%9E%84%E5%BB%BA%EF%BC%8C%E4%BB%85%E7%BC%96%E8%AF%91%E4%BA%86https://github.com/ggerganov/llama.cpp/tree/master/examples/rpc%E6%9C%8D%E5%8A%A1%E5%99%A8%E5%8F%8A%E8%BF%90%E8%A1%8C%E5%9C%A8RPC%E5%AE%A2%E6%88%B7%E7%AB%AF%E6%A8%A1%E5%BC%8F%E7%9A%84%E8%BE%85%E5%8A%A9%E5%B7%A5%E5%85%B7%EF%BC%8C%E8%BF%99%E4%BA%9B%E5%B7%A5%E5%85%B7%E6%98%AF%E5%AE%9E%E7%8E%B0%E5%88%86%E5%B8%83%E5%BC%8F%E6%8E%A8%E7%90%86GGUF%E6%A0%BC%E5%BC%8F%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B(LLMs)%E5%92%8C%E5%B5%8C%E5%85%A5%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%BF%85%E8%A6%81%E7%BB%84%E4%BB%B6%E3%80%82
使用RPC服务器的应用架构如下:
!https://github.com/EvilFreelancer/docker-llama.cpp-rpc/blob/main/assets/schema.png?raw=true
除llama-server外,还可使用标准容器包中包含的llama-cli或llama-embedding。
Docker镜像支持以下架构:
目前arm64架构的CUDA构建因错误失败,暂被禁用。
llama-server、llama-cli、llama-embedding等客户端工具| 名称 | 默认值 | 描述 |
|---|---|---|
| APP_MODE | backend | 容器运行模式,可选值:server(服务端)、backend(后端节点)、none |
| APP_BIND | 0.0.0.0 | 绑定的网络接口 |
| APP_PORT | server模式为8080,backend模式为50052 | 服务器运行端口 |
| APP_MEM | 1024 | 客户端可用RAM容量(MiB);CUDA模式下为GPU内存容量 |
| APP_RPC_BACKENDS | backend-cuda:50052,backend-cpu:50052 | server模式下容器将连接的后端节点地址,逗号分隔 |
| APP_MODEL | /app/models/TinyLlama-1.1B-q4_0.gguf | 容器内模型权重文件路径 |
| APP_REPEAT_PENALTY | 1.0 | 重复惩罚系数 |
| APP_GPU_LAYERS | 99 | 卸载到后端的层数 |
以下示例启动llama-server(容器main),并初始化模型https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/tree/main%EF%BC%88%E9%9C%80%E9%A2%84%E5%85%88%E4%B8%8B%E8%BD%BD%E8%87%B3%E4%B8%8E%60docker-compose.yml%60%E5%90%8C%E7%BA%A7%E7%9A%84%60./models%60%E7%9B%AE%E5%BD%95%EF%BC%89%E3%80%82%60./models%60%E7%9B%AE%E5%BD%95%E5%B0%86%E6%8C%82%E8%BD%BD%E5%88%B0%E5%AE%B9%E5%99%A8%E5%86%85%60/app/models%60%E8%B7%AF%E5%BE%84%E3%80%82
yamlversion: "3.9" services: main: image: docker.xuanyuan.run/evilfreelancer/llama.cpp-rpc:latest restart: unless-stopped volumes: - ./models:/app/models environment: # 运行模式(API服务器格式的RPC客户端) APP_MODE: server # 容器内预加载的模型权重路径 APP_MODEL: /app/models/TinyLlama-1.1B-q4_0.gguf # 客户端将交互的RPC服务器地址 APP_RPC_BACKENDS: backend-cuda:50052,backend-cpu:50052 ports: - "127.0.0.1:8080:8080" backend-cpu: image: docker.xuanyuan.run/evilfreelancer/llama.cpp-rpc:latest restart: unless-stopped environment: # 运行模式(RPC服务器) APP_MODE: backend # RPC服务器可用的系统内存量(兆字节) APP_MEM: 2048 backend-cuda: image: docker.xuanyuan.run/evilfreelancer/llama.cpp-rpc:latest-cuda restart: "unless-stopped" environment: # 运行模式(RPC服务器) APP_MODE: backend # RPC服务器可用的GPU内存量(兆字节) APP_MEM: 1024 deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [ gpu ]
启动后可通过以下HTTP请求进行推理:
shellcurl \ --request POST \ --url http://localhost:8080/completion \ --header "Content-Type: application/json" \ --data '{"prompt": "构建网站可以通过10个简单步骤完成:"}'
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务