如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
本项目基于人机共生智能理论和技术研发智能终端软硬件体系,为开源智能硬件项目xiaozhi-esp32提供后端服务。根据小智通信协议,使用Python、Java、Vue实现,支持MQTT+UDP协议、Websocket协议、MCP接入点、声纹识别、知识库。
常见问题
· 反馈问题
· 部署文档
· 更新日志
Spearheaded by Professor Siyuan Liu's Team (South China University of Technology)
刘思源教授团队主导研发(华南理工大学)
本项目需要配合 ESP32 硬件设备使用。如果您已经购买了 ESP32 相关硬件,且成功对接过虾哥部署的后端服务,并希望独立搭建自己的xiaozhi-esp32后端服务,那么本项目非常适合您。
想看使用效果?请猛戳视频 🎥
[!WARNING] 1、本项目为开源软件,本软件与对接的任何第三方API服务商(包括但不限于语音识别、大模型、语音合成等平台)均不存在商业合作关系,不为其服务质量及资金安全提供任何形式的担保。建议使用者优先选择持有相关业务牌照的服务商,并仔细阅读其服务协议及隐私政策。本软件不托管任何账户密钥、不参与资金流转、不承担充值资金损失风险。
[!WARNING] 2、本项目功能未完善,且未通过网络安全测评,请勿在生产环境中使用。如果您在公网环境中部署学习本项目,请务必做好必要的防护。
本项目提供两种部署方式,请根据您的具体需求选择:
🚀 部署方式选择
| 部署方式 | 特点 | 适用场景 | 部署文档 | 配置要求 | 视频教程 |
|---|---|---|---|---|---|
| 最简化安装 | 智能对话、单智能体管理 | 低配置环境,数据存储在配置文件,无需数据库 | ①Docker版 / ②源码部署 | 如果使用FunASR要2核4G,如果全API,要2核2G | - |
| 全模块安装 | 智能对话、多用户管理、多智能体管理、智控台界面操作 | 完整功能体验,数据存储在数据库 | ①Docker版 / ②源码部署 / ③源码部署自动更新教程 | 如果使用FunASR要4核8G,如果全API,要2核4G | https://www.bilibili.com/video/BV1wBJhz4Ewe |
常见问题及相关教程,可参考这个链接
[!NOTE] 以下是按最新代码部署后的测试平台,有需要可烧录测试,并发为6个,每天会清空数据:
智控台地址: https://2662r3426b.vicp.fun
智控台(h5版): https://2662r3426b.vicp.fun/h5/index.html
服务测试工具: https://2662r3426b.vicp.fun/test/
OTA接口地址: https://2662r3426b.vicp.fun/xiaozhi/ota/
Websocket接口地址: wss://2662r3426b.vicp.fun/xiaozhi/v1/
🚩 配置说明和推荐
[!Note] 本项目提供两种配置方案:
入门全免费配置:适合个人家庭使用,所有组件均采用免费方案,无需额外付费。
流式配置:适合演示、培训、超过2个并发等场景,采用流式处理技术,响应速度更快,体验更佳。自
0.5.2版本起,项目支持流式配置,相比早期版本,响应速度提升约2.5秒,显著改善用户体验。
| 模块名称 | 入门全免费设置 | 流式配置 |
|---|---|---|
| ASR(语音识别) | FunASR(本地) | 👍XunfeiStreamASR(讯飞流式) |
| LLM(大模型) | glm-4-flash(智谱) | 👍qwen-flash(阿里百炼) |
| VLLM(视觉大模型) | glm-4v-flash(智谱) | 👍qwen3.5-flash(阿里百炼) |
| TTS(语音合成) | EdgeTTS(微软) | 👍HuoshanDoubleStreamTTS(火山流式) |
| Intent(意图识别) | function_call(函数调用) | function_call(函数调用) |
| Memory(记忆功能) | mem_local_short(本地短期记忆) | mem_local_short(本地短期记忆) |
如果您关心各组件的耗时,请查阅https://github.com/xinnan-tech/xiaozhi-performance-research%EF%BC%8C%E5%8F%AF%E6%8C%89%E6%8A%A5%E5%91%8A%E4%B8%AD%E7%9A%84%E6%B5%8B%E8%AF%95%E6%96%B9%E6%B3%95%E5%9C%A8%E6%82%A8%E7%9A%84%E7%8E%AF%E5%A2%83%E4%B8%AD%E5%AE%9E%E9%99%85%E6%B5%8B%E8%AF%95%E3%80%82
🔧 测试工具
本项目提供以下测试工具,帮助您验证系统和选择合适的模型:
| 工具名称 | 位置 | 使用方法 | 功能说明 |
|---|---|---|---|
| 音频交互测试工具 | main》digital-human》index.html | 在 main/digital-human 执行 python start.py 后访问 http://127.0.0.1:8006/index.html | 测试音频播放和接收功能,验证Python端音频处理是否正常 |
| 模型响应测试工具 | main》xiaozhi-server》performance_tester.py | 执行 python performance_tester.py | 测试ASR(语音识别)、LLM(大模型)、VLLM(视觉模型)、TTS(语音合成)三个核心模块的响应速度 |
[!NOTE] 测试模型速度时,只会测试配置了密钥的模型。
| 功能模块 | 描述 |
|---|---|
| 核心架构 | 基于https://github.com/xinnan-tech/xiaozhi-esp32-server/blob/main/docs/mqtt-gateway-integration.md%E3%80%81WebSocket%E3%80%81HTTP%E6%9C%8D%E5%8A%A1%E5%99%A8%EF%BC%8C%E6%8F%90%E4%BE%9B%E5%AE%8C%E6%95%B4%E7%9A%84%E6%8E%A7%E5%88%B6%E5%8F%B0%E7%AE%A1%E7%90%86%E5%92%8C%E8%AE%A4%E8%AF%81%E7%B3%BB%E7%BB%9F |
| 语音交互 | 支持流式ASR(语音识别)、流式TTS(语音合成)、VAD(语音活动检测),支持多语言识别和语音处理 |
| 声纹识别 | 支持多用户声纹注册、管理和识别,与ASR并行处理,实时识别说话人身份并传递给LLM进行个性化回应 |
| 智能对话 | 支持多种LLM(大语言模型),实现智能对话 |
| 视觉感知 | 支持多种VLLM(视觉大模型),实现多模态交互 |
| 意图识别 | 支持外挂的大模型意图识别、大模型自主函数调用,提供插件化意图处理机制 |
| 记忆系统 | 支持本地短期记忆、mem0ai接口记忆、PowerMem智能记忆,具备记忆总结功能 |
| 知识库 | 支持RAGFlow知识库,让大模型判断需要调度知识库后再回答 |
| 工具调用 | 支持客户端IOT协议、客户MCP协议、服务端MCP协议、MCP接入点协议、自定义工具函数 |
| 指令下发 | 依托MQTT协议,支持从智控台将MCP指令下发到ESP32设备 |
| 管理后台 | 提供Web管理界面,支持用户管理、系统配置和设备管理;界面支持中文简体、中文繁体、英文显示 |
| 测试工具 | 提供性能测试工具、视觉模型测试工具和音频交互测试工具 |
| 部署支持 | 支持Docker部署和本地部署,提供完整的配置文件管理 |
| 插件系统 | 支持功能插件扩展、自定义插件开发和插件热加载 |
想了解具体开发计划进度,https://github.com/users/xinnan-tech/projects/3%E3%80%82%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98%E5%8F%8A%E7%9B%B8%E5%85%B3%E6%95%99%E7%A8%8B%EF%BC%8C%E5%8F%AF%E5%8F%82%E8%80%83%E8%BF%99%E4%B8%AA%E9%93%BE%E6%8E%A5
如果你是一名软件开发者,这里有一份《致开发者的公开信》,欢迎加入!
小智是一个生态,当你使用这个产品时,也可以看看其他在这个生态圈的https://github.com/78/xiaozhi-esp32/blob/main/README_zh.md#%E7%9B%B8%E5%85%B3%E5%BC%80%E6%BA%90%E9%A1%B9%E7%9B%AE
| 使用方式 | 支持平台 | 免费平台 |
|---|---|---|
| openai 接口调用 | 阿里百炼、火山引擎、DeepSeek、智谱、***、科大讯飞 | 智谱、*** |
| ollama 接口调用 | Ollama | - |
| dify 接口调用 | Dify | - |
| fastgpt 接口调用 | Fastgpt | - |
| coze 接口调用 | Coze | - |
| xinference 接口调用 | Xinference | - |
| homeassistant 接口调用 | HomeAssistant | - |
实际上,任何支持 openai 接口调用的 LLM 均可接入使用。
| 使用方式 | 支持平台 | 免费平台 |
|---|---|---|
| openai 接口调用 | 阿里百炼、智谱ChatGLMVLLM | 智谱ChatGLMVLLM |
实际上,任何支持 openai 接口调用的 VLLM 均可接入使用。
| 使用方式 | 支持平台 | 免费平台 |
|---|---|---|
| 接口调用 | EdgeTTS、科大讯飞、火山引擎、腾讯云、阿里云及百炼、CosyVoiceSiliconflow、TTS302AI、CozeCnTTS、GizwitsTTS、ACGNTTS、OpenAITTS、灵犀流式TTS、MinimaxTTS | 灵犀流式TTS、EdgeTTS、CosyVoiceSiliconflow(部分) |
| 本地服务 | FishSpeech、GPT_SOVITS_V2、GPT_SOVITS_V3、Index-TTS、PaddleSpeech | Index-TTS、PaddleSpeech、FishSpeech、GPT_SOVITS_V2、GPT_SOVITS_V3 |
| 类型 | 平台名称 | 使用方式 | 收费模式 | 备注 |
|---|---|---|---|---|
| VAD | SileroVAD | 本地使用 | 免费 |
| 使用方式 | 支持平台 | 免费平台 |
|---|---|---|
| 本地使用 | FunASR、SherpaASR | FunASR、SherpaASR |
| 接口调用 | FunASRServer、火山引擎、科大讯飞、腾讯云、阿里云、百度云、OpenAI ASR | FunASRServer |
| 使用方式 | 支持平台 | 免费平台 |
|---|---|---|
| 本地使用 | 3D-Speaker | 3D-Speaker |
| 类型 | 平台名称 | 使用方式 | 收费模式 | 备注 |
|---|---|---|---|---|
| Memory | mem0ai | 接口调用 | 1000次/月额度 | |
| Memory | powermem | 本地总结 | 取决于LLM和DB | OceanBase开源,支持智能检索 |
| Memory | mem_local_short | 本地总结 | 免费 | |
| Memory | nomem | 无记忆模式 | 免费 |
| 类型 | 平台名称 | 使用方式 | 收费模式 | 备注 |
|---|---|---|---|---|
| Intent | intent_llm | 接口调用 | 根据LLM收费 | 通过大模型识别意图,通用性强 |
| Intent | function_call | 接口调用 | 根据LLM收费 | 通过大模型函数调用完成意图,速度快,效果好 |
| Intent | nointent | 无意图模式 | 免费 | 不进行意图识别,直接返回对话结果 |
| 类型 | 平台名称 | 使用方式 | 收费模式 | 备注 |
|---|---|---|---|---|
| Rag | ragflow | 接口调用 | 根据切片、分词消耗的token收费 | 借助RagFlow的检索增强生成功能,提供更准确的对话回复 |
| Logo | 项目/公司 | 说明 |
|---|---|---|
| https://github.com/ww***2017/bailing | 本项目受https://github.com/ww***2017/bailing%E5%90%AF%E5%8F%91%EF%BC%8C%E5%B9%B6%E5%9C%A8%E5%85%B6%E5%9F%BA%E7%A1%80%E4%B8%8A%E5%AE%9E%E7%8E%B0 | |
| 十方融海 | 感谢十方融海为小智生态制定了标准的通讯协议、多设备兼容性方案及高并发场景实践示范;为本项目提供了全链路技术文档支持 | |
| https://github.com/Eric0308 | 感谢https://github.com/Eric0308%E8%B4%A1%E7%8C%AE%E5%87%BD%E6%95%B0%E8%B0%83%E7%94%A8%E6%A1%86%E6%9E%B6%E3%80%81MCP%E9%80%9A%E4%BF%A1%E5%8D%8F%E8%AE%AE%E5%8F%8A%E6%8F%92%E4%BB%B6%E5%8C%96%E8%B0%83%E7%94%A8%E6%9C%BA%E5%88%B6%E7%9A%84%E5%AE%9E%E7%8E%B0%E4%BB%A3%E7%A0%81%EF%BC%8C%E9%80%9A%E8%BF%87%E6%A0%87%E5%87%86%E5%8C%96%E7%9A%84%E6%8C%87%E4%BB%A4%E8%B0%83%E5%BA%A6%E4%BD%93%E7%B3%BB%E4%B8%8E%E5%8A%A8%E6%80%81%E6%89%A9%E5%B1%95%E8%83%BD%E5%8A%9B%EF%BC%8C%E6%98%BE%E8%91%97%E6%8F%90%E5%8D%87%E4%BA%86%E5%89%8D%E7%AB%AF%E8%AE%BE%E5%A4%87(IoT)%E7%9A%84%E4%BA%A4%E4%BA%92%E6%95%88%E7%8E%87%E5%92%8C%E5%8A%9F%E8%83%BD%E5%BB%B6%E5%B1%95%E6%80%A7 | |
| https://github.com/huangjunsen0406 | 感谢https://github.com/huangjunsen0406 贡献智控台移动端模块,实现了跨平台移动设备的高效控制与实时交互,大幅提升了系统在移动场景下的操作便捷性和管理效率 | |
| 汇远设计 | 感谢汇远设计为本项目提供专业视觉解决方案,用其服务超千家企业的设计实战经验,赋能本项目产品用户体验 | |
| 西安勤人信息科技 | 感谢西安勤人信息科技深化本项目视觉体系,确保整体设计风格在多场景应用中的一致性和扩展性 | |
| https://github.com/xinnan-tech/xiaozhi-esp32-server/graphs/contributors | 感谢https://github.com/xinnan-tech/xiaozhi-esp32-server/graphs/contributors%E8%B4%A1%E7%8C%AE%E8%80%85%EF%BC%8C%E4%BD%A0%E4%BB%AC%E7%9A%84%E4%BB%98%E5%87%BA%E8%AE%A9%E9%A1%B9%E7%9B%AE%E6%9B%B4%E5%8A%A0%E5%81%A5%E5%A3%AE%E5%92%8C%E5%BC%BA%E5%A4%A7%E3%80%82 |
来自真实用户的反馈,见证轩辕镜像的优质服务