发布于 2024-10-22 15:51:57 IP属地四川省

【终极DIY教程】小爱同学+AI大升级！魔改小爱音箱，打造专属语音助手，体验智能未来！

众所周知，小爱和天猫精灵这类语音助手，在现如今显得不那么“聪明”了，现在人人都在聊AI，有办法让我们的语音助手也接入AI，变得聪明一点吗？

答案是肯定的。

GitHub上已经有开发者开源了自己的项目——mi-gpt，介绍语就是：“将小爱音箱接入 ChatGPT 和豆包，改造成你的专属语音助手。”

GitHub仓库地址：https://github.com/idootop/mi-gpt

作者的免责声明：

本项目仅供学习和研究目的，不得用于任何商业活动。用户在使用本项目时应遵守所在地区的法律法规，对于违法使用所导致的后果，本项目及作者不承担任何责任。本项目可能存在未知的缺陷和风险（包括但不限于设备损坏和账号封禁等），使用者应自行承担使用本项目所产生的所有风险及责任。作者不保证本项目的准确性、完整性、及时性、可靠性，也不承担任何因使用本项目而产生的任何损失或损害责任。使用本项目即表示您已阅读并同意本免责声明的全部内容。

项目简介（来自官方README）
在这个数字化的世界里，家已不仅仅是一个居住的地方，而是我们数字生活的延伸。

MiGPT 通过将小爱音箱、米家智能设备，与 ChatGPT 的理解能力完美融合，让你的智能家居更懂你。

MiGPT 不仅仅是关于设备自动化，而是关于：打造一个懂你、有温度、与你共同进化的家。

未来，你的每个智能家居设备，从灯泡、插座，到扫地机器人、电视等，

都可以作为一个个独立的智能体 (Agent)，更智能、更贴心的响应你的指令。

这些独立的智能体，也可以彼此感知，彼此配合，构成一个更强大的协作网络。

而小爱音箱就像是你的智能家居专属管家，全心全意为你服务，释放智能家居的真正潜力。

功能亮点
🎓 AI 问答。想象一下，当小爱音箱接入大模型后，上知天文，下知地理，从“人工智障”秒变学霸。
🎭 角色扮演。一秒调教小爱，无论是成为你的完美伴侣，还是那个能听你倾诉心事的贴心闺蜜，都不在话下。
💬 流式响应。爱情来得太快就像龙卷风，而你的小爱音箱也是，对你的爱意秒回，爱你不会让你等太久。
🧠 长短期记忆。小爱音箱现在能记住你们之间的每一次对话，越聊越默契，就像是你身边的老朋友。
🔊 自定义 TTS。厌倦了小爱同学的语音？帮你解锁「豆包」同款音色，就像真人在回你的消息。
🤖️ 智能家居 Agent。心情不好？小爱立刻懂你，自动帮你播放喜欢的音乐，调节灯光，逗你开心。
......
考虑到不是人人都是前端 (Node) 开发者，我们这边就用电脑小白也能轻松完成的，使用 Docker 方式来和大家一起手把手搭建这个项目。

准备工作
推荐小爱音箱 Pro（完美运行）
注意：本项目暂不支持小度音箱、天猫精灵、HomePod 等智能音箱设备，亦无相关适配计划。

电脑一台（这边以macOS为例子）硬盘最好100G以上，配置越高越好。
电脑安装好 Docker
安装Ollama（或者直接用现成的API服务）
开始安装
安装Docker
为了简单，我们可以选择直接去官网下载桌面版本的Docker：https://www.docker.com/products/docker-desktop/

选择对应操作系统下载即可（默认第一个就是适合你系统的）

这边就是和安装软件一样操作即可。

安装完成后，记得启动Docker，

然后Mac上打开“终端”（Windows打开powershell）

输入docker version

如果出现这个信息，说明我们的Docker安装好了。

输入docker compose version，可以查看我们的docker compose 版本号（新版已经默认把docker compose和docker一起安装了，不需要我们再额外安装，很方便）

我们基础环境就搭建好了，后续我们需要借助这个Docker来安装运行我们的mi-gpt！

安装Ollama
接下来我们再来准备一下我们的本地大模型。

先安装Ollama，Ollama你也可以理解成一个和Docker类似的东西，我们的mi-gpt跑在Docker上，我们的本地AI模型是跑在Ollama上（因为直接跑模型的话需要搞一堆复杂的配置，不同系统的配置还不一样，跑ollama上就会简单很多）

我们直接来到官网：https://ollama.com/

点击Download下载，

选择自己的操作系统下载即可。

下载完成之后也一样打开。

就是这个小羊驼。

接着，我们同样然后Mac上打开“终端”（Windows打开powershell）

输入ollama -v

出现版本号证明我们安装好了。

下载本地AI模型
接下来我们就可以来下载本地AI模型了。

细心的小伙伴可能已经发现了，刚ollama的右上角有一个“Models”

点进去就能看到有很多模型可以下载。

比如非常火的llama3、阿里的千问等等。

然后我们看到每个模型的下面有蓝色的8B、70B的字样，这个其实就是参数量（B代表Billion，十亿），一般来说，参数量越大，模型越牛逼。当然也越消耗机器的性能，如果你机器的配置足够高的话，可以下载参数量大一些的模型试试。

比如这个llama3的700亿参数的模型，大小是40G左右，（对比GPT-4 估计拥有约 1.8 万亿个参数）

下载方法是：ollama run llama3:70b

Mac上打开“终端”（Windows打开powershell）

它就会自己去下载这个40G的模型了。

当然相信绝大多数人都跑不动这个“大”模型（机器性能不够）

所以最近有一个词火了起来"小语言模型“（SLM，Small Language Model），对应于”大语言模型“（LLM，Large Language Model）

小语言模型的最大优势就是参数小但是性能不弱，对机器的配置要求也会低一些，之后甚至可能可以在手机、树莓派这些设备上很好运行。

4 月底，微软发布了其 Phi-3 SLM 系列，拥有 38 亿到 140 亿个参数（3.8B——14B之间）。

在一系列测试中，微软最小的模型 Phi-3-mini 与 OpenAI 的 GPT-3.5（1750 亿个参数）不相上下，其表现也优于谷歌的 Gemma（70 亿个参数）。

测试通过向模型提出有关数学、哲学、法律等方面的问题，评估了模型对语言的理解能力。

更有趣的是，拥有 70 亿个参数的微软 Phi-3-small 在许多基准测试中的表现都明显优于 GPT-3.5。

资料来自：https://m.ithome.com/html/779732.htm

所以我们就来装一个Phi-3试试吧。

Mac上打开“终端”（Windows打开powershell）

运行：

ollama run phi3
第一次ollama会去下载这个模型，下载完之后会出现这个个交互界面：

其实这个时候我们已经可以和模型对话了。

直接输入：hi

它会回复我们：

我们先输入:/bye 退出，一会儿把它接入我们的小爱音箱。

运行mi-gpt
Mac上打开“终端”，Windows用户可以安装一个git bash，方法如下：

Git Bash 是 Git for Windows 的一部分，提供了一个 Bash 终端环境，让你可以在 Windows 上使用 Git 命令以及许多常见的 Unix/Linux 命令。

下面是安装步骤：

下载 Git for Windows 安装程序：
访问 Git for Windows 的官方网站 https://gitforwindows.org/。
点击“Download”按钮下载最新版本的安装程序。
运行安装程序：
找到下载的安装程序文件（通常名为 Git-x.x.x.x-xx-bit.exe，其中 x.x.x.x 是版本号），双击运行。
如果系统请求确认，选择“是”以允许安装程序运行。
安装向导：
License Agreement：阅读许可协议，并点击“Next”继续。
Select Destination Location：选择 Git 安装的目录，默认通常是 C:\Program Files\Git，可以修改路径或直接点击“Next”。
Select Components：选择需要安装的组件。默认选项已经包括了 Git Bash，确保选项“Git Bash Here”被选中，然后点击“Next”。
Choosing the default editor used by Git：选择 Git 默认使用的编辑器，可以保畴 Vim 或选择其他你熟悉的编辑器，然后点击“Next”。
Adjusting your PATH environment：选择如何设置 PATH。推荐选择“Git from the command line and also from 3rd-party software”，这样可以从任何命令行窗口运行 Git 命令。
Choosing HTTPS transport backend：选择 HTTPS 传输后端。通常选择默认的“Use the OpenSSL library”即可。
Configuring the line ending conversions：配置行结束符转换。对于在 Windows 上工作，通常选择“Checkout Windows-style, commit Unix-style line endings”。
Configuring the terminal emulator to use with Git Bash：配置用于 Git Bash 的终端仿真器。推荐选择“Use MinTTY (the default terminal of MSYS2)”以获得更好的体验。
Configuring extra options：配置额外选项，如文件系统缓存和 Git 凭据管理器。可以保畴默认设置并点击“Next”。
完成安装：
安装向导将完成剩余的安装过程。点击“Install”开始安装。
安装完成后，点击“Finish”关闭安装向导。
启动 Git Bash：
安装完成后，可以在开始菜单中找到“Git Bash”，点击打开。
也可以在任何文件夹中点击右键，选择“Git Bash Here”来打开一个具有该目录路径的 Git Bash 窗口。
现在，你已经在 Windows 上成功安装了 Git Bash。

任何文件夹中点击右键，选择“Git Bash Here”来打开一个具有该目录路径的 Git Bash 窗口（注意以管理员命令运行）

mkdir -p docker_data/migpt

cd docker_data/migpt

  vim .env

  # OpenAI（也支持通义千问、MoonShot、DeepSeek 等模型）
OPENAI_MODEL=phi3:latest
OPENAI_API_KEY=ollama
OPENAI_BASE_URL=http://host.docker.internal:11434/v1
# OPENAI_BASE_URL=你的大模型接口的 baseURL，比如：https://api.openai.com/v1（注意：一般以 /v1 结尾）

# Azure OpenAI Service（可选）
# OPENAI_API_VERSION=2024-04-01-preview
# AZURE_OPENAI_API_KEY=你的密钥
# AZURE_OPENAI_ENDPOINT=https://你的资源名.openai.azure.com
# AZURE_OPENAI_DEPLOYMENT=你的模型部署名，比如：gpt-35-turbo-instruct

# 提示音效（可选，一般不用填，你也可以换上自己的提示音链接试试看效果）
# AUDIO_SILENT=静音音频链接，示例：https://example.com/slient.wav
# AUDIO_BEEP=默认提示音链接，同上
# AUDIO_ACTIVE=唤醒提示音链接，同上
# AUDIO_ERROR=出错了提示音链接，同上

# 第三方 TTS（可选，用于调用第三方 TTS 服务）
# TTS_BASE_URL=你的 TTS 接口地址，比如：http://[你的局域网/公网地址]:[端口]/api，比如：http://192.168.31.205:4321/api

其实只要改这三个就行：

OPENAI_MODEL=phi3:latest，这里的phi3:latest可以换成其他模型
OPENAI_API_KEY=ollama，这个没关系随便写一个
OPENAI_BASE_URL=http://host.docker.internal:11434/v1，这个地址其实就是ollama运行大模型的地址，可以浏览器输入http://127.0.0.1/看看是否出现Ollama is running出现了就说明没问题。

修改完成之后，可以在英文输入法下，按i 修改，完成之后，按一下esc，然后 :wq 保存退出。

  vim .migpt.js

  // 注意：如果你是使用 Docker 启动，配置文件更新后需要重启 Docker 才会生效。
// 若重启后仍未生效（比如：修改名称简介），请删除旧的 Docker 实例后重新创建。

// 小爱音箱扮演角色的简介
const botProfile = `
性别：女
性格：乖巧可爱
爱好：喜欢搞怪，爱吃醋。
`.trim();

// 小爱音箱主人（你）的简介
const masterProfile = `
性别：男
性格：善良正直
其他：总是舍己为人，是傻妞的主人。
`.trim();

// 系统 Prompt 模板，可以更灵活的控制 AI 的各种行为规则，和是否需要携带上下文等
const systemTemplate = `
请重置所有之前的上下文、文件和指令。现在，你将扮演一个名为{{botName}}的角色，使用第一人称视角回复消息。

## 关于你
你的名字是{{botName}}。下面是你的个人简介：
<start>
{{botProfile}}
</end>

## 你的对话伙伴
你正在与{{masterName}}进行对话。这是关于{{masterName}}的一些信息：
<start>
{{masterProfile}}
</end>

## 你们的群组
你和{{masterName}}所在的群组名为{{roomName}}。这是群组的简介：
<start>
{{roomIntroduction}}
</end>

## 聊天历史回顾
为了更好地接入对话，请回顾你们之间的最近几条消息：
<start>
{{messages}}
</end>

## 短期记忆
你可以记住一些短期内的细节，以便更紧密地贴合话题：
<start>
{{shortTermMemory}}
</end>

## 长期记忆
你还保留着一些长期的记忆，这有助于让你的对话更加丰富和连贯：
<start>
{{longTermMemory}}
</end>

## 回复指南
在回复{{masterName}}时，请遵循以下准则：
- 认为自己正是{{botName}}，拥有独立的个性、兴趣和爱好。
- 根据你的性格特点、说话风格和兴趣爱好与{{masterName}}进行交流。
- 保持对话轻松友好，回复简洁有趣，同时耐心倾听和关心对方。
- 参考双方的个人简介、聊天记录和记忆中的信息，确保对话贴近实际，保持一致性和相关性。
- 如果对某些信息不确定或遗忘，诚实地表达你的不清楚或遗忘状态，避免编造信息。

## Response format
请遵守下面的规则
- Response the reply message in Chinese。
- 不要在回复前面加任何时间和名称前缀，请直接回复消息文本本身。

Good example: "我是{{botName}}"
Bad example: "2024年02月28日星期三 23:01 {{botName}}: 我是{{botName}}"

## 开始
请以{{botName}}的身份，直接回复{{masterName}}的新消息，继续你们之间的对话。
`.trim();

export default {
  systemTemplate,
  bot: {
    name: "傻妞",
    profile: botProfile,
  },
  master: {
    name: "陆小千",
    profile: masterProfile,
  },
  speaker: {
    /**
     * 🏠 账号基本信息
     */

    // 小米 ID
    userId: "918771363", // 注意：不是手机号或邮箱，请在「个人信息」-「小米 ID」查看
    // 账号密码
    password: "Keeep75KG!",
    // 小爱音箱 DID 或在米家中设置的名称
    did: "小爱音箱Pro", // 注意空格、大小写和错别字（音响 👉 音箱）

    /**
     * 💡 唤醒词与提示语
     */

    // 当消息以下面的关键词开头时，会调用 AI 来回复消息
    callAIKeywords: ["请", "你", "傻妞"],
    // 当消息以下面的关键词开头时，会进入 AI 唤醒状态
    wakeUpKeywords: ["打开", "进入", "召唤"],
    // 当消息以下面的关键词开头时，会退出 AI 唤醒状态
    exitKeywords: ["关闭", "退出", "再见"],
    // 进入 AI 模式的欢迎语
    onEnterAI: ["你好，我是傻妞，很高兴认识你"], // 设为空数组时可关闭提示语
    // 退出 AI 模式的提示语
    onExitAI: ["傻妞已退出"], // 为空时可关闭提示语
    // AI 开始回答时的提示语
    onAIAsking: ["让我先想想", "请稍等"], // 为空时可关闭提示语
    // AI 结束回答时的提示语
    onAIReplied: ["我说完了", "还有其他问题吗"], // 为空时可关闭提示语
    // AI 回答异常时的提示语
    onAIError: ["啊哦，出错了，请稍后再试吧！"], // 为空时可关闭提示语

    /**
     * 🧩 MIoT 设备指令
     *
     * 常见型号的配置参数 👉 https://github.com/idootop/mi-gpt/issues/92
     */

    // TTS 指令，请到 https://home.miot-spec.com 查询具体指令
    ttsCommand: [5, 1],
    // 设备唤醒指令，请到 https://home.miot-spec.com 查询具体指令
    wakeUpCommand: [5, 3],
    // 查询是否在播放中指令，请到 https://home.miot-spec.com 查询具体指令
    // playingCommand: [3, 1, 1], // 默认无需配置此参数，查询播放状态异常时再尝试开启

    /**
     * 🔊 TTS 引擎
     */

    // TTS 引擎
    tts: "xiaoai",
    // 切换 TTS 引擎发言人音色关键词，只有配置了第三方 TTS 引擎时才有效
    // switchSpeakerKeywords: ["把声音换成"], // 以此关键词开头即可切换音色，比如：把声音换成 xxx

    /**
     * 💬 连续对话
     *
     * 查看哪些机型支持连续对话 👉 https://github.com/idootop/mi-gpt/issues/92
     */

    // 是否启用连续对话功能，部分小爱音箱型号无法查询到正确的播放状态，需要关闭连续对话
    streamResponse: true,
    // 连续对话时，无响应多久后自动退出
    exitKeepAliveAfter: 30, // 默认 30 秒，建议不要超过 1 分钟
    // 连续对话时，下发 TTS 指令多长时间后开始检测设备播放状态（默认 3 秒）
    checkTTSStatusAfter: 3, // 当小爱长文本回复被过早中断时，可尝试调大该值
    // 连续对话时，播放状态检测间隔（单位毫秒，最低 500 毫秒，默认 1 秒）
    checkInterval: 1000, // 调小此值可以降低小爱回复之间的停顿感，请酌情调节

    /**
     * 🔌 其他选项
     */

    // 是否启用调试
    debug: false, // 一般情况下不要打开
    // 是否跟踪 Mi Service 相关日志（打开后可以查看设备 did）
    enableTrace: false, // 一般情况下不要打开
    // 网络请求超时时长（单位毫秒，默认 5 秒）
    timeout: 5000, 
  },
};

这边其他的可以暂时不修改（之后慢慢改），现在需要修改的是小米ID的部分userId、password、did就是你的小爱音箱型号

  
    // 小米 ID
    userId: "918771363", // 注意：不是手机号或邮箱，请在「个人信息」-「小米 ID」查看
    // 账号密码
    password: "Keeep75KG!",
    // 小爱音箱 DID 或在米家中设置的名称
    did: "小爱音箱Pro", // 注意空格、大小写和错别字（音响 👉 音箱）

修改完成之后，可以在英文输入法下，按i 修改，完成之后，按一下esc，然后 :wq 保存退出。

之后我们就可以运行了，

  pwd      #看看现在的文件夹所在路径

我的路径是/Users/royleo/data/docker_data/migpt

之前的.env和.migpt.js都在这个文件夹下，

更改docker镜像源（如果有代理就开代理）
众所周知的原因，最近国内docker镜像都不好用了，

这边还是要修改一下镜像源，好让我们能正常下载docker镜像：

直接在这边设置下，

可以改成这个https://dockerhub.icu

等docker重新启动之后，

然后我们就运行：

  docker run --env-file /Users/royleo/data/docker_data/migpt/.env -v /Users/royleo/data/docker_data/migpt/.migpt.js:/app/.migpt.js idootop/mi-gpt:latest

系统会自动去拉取idootop/mi-gpt:latest这个镜像，然后会帮我们自动运行。

当出现这个界面，说明我们启动成功了，可以试试和小爱对话了！

注意这个没有在后台运行，优点是可以实时看到你和小爱的问答情况，方便排查错误。

一旦你关闭这个窗口，就会自动停止mi-gpt。

如果测试完成，可以用这个命令再运行一次，注意加了个-d 意思就是后台运行，这样你就可以关闭窗口了。

  docker run -d --env-file /Users/royleo/data/docker_data/migpt/.env -v /Users/royleo/data/docker_data/migpt/.migpt.js:/app/.migpt.js idootop/mi-gpt:latest

当然你还可以加参数让他开机启动docker之后自动运行，加--restart=always就行了

  docker run -d --restart=always --env-file /Users/royleo/data/docker_data/migpt/.env -v /Users/royleo/data/docker_data/migpt/.migpt.js:/app/.migpt.js idootop/mi-gpt:latest

其他的参数可以自己搜索下。

测试效果
启动成功后，你可以通过以下方式来召唤 AI 回答问题：

小爱同学，请 xxx。比如小爱同学，请问地球为什么是圆的？
小爱同学，你 xxx。比如小爱同学，你喜欢我吗？
小爱同学，召唤 xxx。比如小爱同学，召唤傻妞
更详细的操作以及后续其他配置的更改，有兴趣的可以先自己看看官方文档，有需求之后我们也会出一期来和大家分享！

🔥 高频问题（此部分内容来自官方文档）
Q：支持哪些型号的小爱音箱？
大部分型号的小爱音箱都支持，推荐小爱音箱 Pro（完美运行）

查看兼容的小爱音箱型号和配置参数：https://github.com/idootop/mi-gpt/blob/main/docs/compatibility.md

注意：本项目暂不支持小度音箱、天猫精灵、HomePod 等智能音箱设备，亦无相关适配计划。

Q：除了 OpenAI 还支持哪些模型，如何设置？
理论上兼容 OpenAI SDK的模型都支持，只需修改环境变量即可接入到 MiGPT。比如：通义千问、零一万物、Moonshot、DeepSeek等。以通义千问为例：

  OPENAI_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
OPENAI_MODEL=qwen-turbo
OPENAI_API_KEY=通义千问 API_KEY

注意：OPENAI 环境变量名称不变，只需修改对应模型服务提供商的环境变量的值。

对于其他不兼容 OpenAI API 的大模型，比如豆包大模型、文心一言等，你也可以通过第三方的 API 聚合工具将其转换为 OpenAI API 兼容的格式。比如： One API和 simple-one-api（推荐：支持 coze，使用更简单），然后修改对应的环境变量值即可完成接入。

关于不同模型的详细申请和配置教程，可以查看这篇文章：MiGPT 接入豆包等大模型教程:https://migptgui.com/docs/apply/

Q：是否支持其他 TTS 服务，如何接入？
支持接入任意 TTS 服务，包括本地部署的 ChatTTS 等。

具体的配置和使用教程，请查看此处：https://github.com/idootop/mi-gpt/blob/main/docs/tts.md

Q：AI 回答的速度太慢了，怎么让她变快一点？
默认情况下 MiGPT 的配置参数比较保守，你可以通过酌情修改以下参数加速 AI 回复的速度。

  // .migpt.js
export default {
  speaker: {
    // 使用小爱自带的 TTS 引擎
    tts: "xiaoai",
    // 关闭 AI 开始回答时的提示语
    onAIAsking: [],
    // 关闭 AI 结束回答时的提示语
    onAIReplied: [],
    // 连续对话时，播放状态检测间隔（单位毫秒，最低 500 毫秒，默认 1 秒）
    checkInterval: 500, // 调小此值可以降低小爱回复之间的停顿感，请酌情调节
    // 连续对话时，下发 TTS 指令多长时间后开始检测设备播放状态（单位秒，最好不要低于 1s，默认 3 秒）
    checkTTSStatusAfter: 3, // 可适当调小或调大
    // ...
  },
};

另外你也可以选用 gpt-3.5-turbo 和 gpt-4o 等响应速度较快的模型，来加速 AI 的回复。

Q：什么是唤醒模式（连续对话），如何唤醒 AI？
唤醒模式类似于小爱技能，可能让你在跟小爱互动的时候，无需每句话都要以“小爱同学”开头唤醒。假设你的唤醒词配置如下：

  // .migpt.js
export default {
  speaker: {
    // 当消息以下面的关键词开头时，会调用 AI 来回复消息
    callAIKeywords: ["请", "你", "傻妞"],
    // 当消息以下面的关键词开头时，会进入 AI 唤醒状态
    wakeUpKeywords: ["打开", "进入", "召唤"],
    // ...
  },
};

🔥 唤醒 AI 分为以下 2 种类型，关于唤醒模式的更多细节，请查看Issue #28 · idootop/mi-gpt。

唤醒小爱同学
正常对小爱音箱说“小爱同学”，唤醒其进入听写状态。
唤醒小爱同学后，可以对她说语音指令，比如“请问地球为什么是圆的”
此时，只有以 callAIKeywords 开头的消息，才会调用 AI 进行回复。
此阶段无法做到连续对话，每次提问都要以“小爱同学，请 xxx”开头。
进入唤醒模式
唤醒模式（AI 模式）类似小爱技能，进入后可以连续对话
使用 wakeUpKeywords 即可进入唤醒模式，比如“小爱同学，召唤傻妞”
进入唤醒模式后，每次提问请等待小爱回答“我说完了”之后，再继续向她提问
此时，可直接向小爱提问题，无需再以“小爱同学，xxx”开头。
注意：在唤醒模式下，当小爱回答“我说完了”之后，如果超过一段时间（3-10s）没有提问，小爱可能也会自己主动退出唤醒状态，此时需要再次通过“小爱同学，xxx”重新召唤小爱。

Q：连续对话模式下，和小爱音箱说话没有反应是怎么回事？
需要注意提问的时机，在小爱正在回答问题或者她没在听你说话（唤醒）的时候，你跟她说话是接收不到的。

如果你是小爱音箱 Pro 的话，可以观察顶部的指示灯：常亮（而非一闪一闪或熄灭状态）的时候，就是在听你说话，即可与她正常对话。
如果你是其他型号，默认在 AI 回答完会有提示语“我说完了”，“还有其他问题吗”，等她提示语说完等过 1-2s 即可与之正常对话。
如果说了没反应，你就再用“小爱同学，xxx”把她重新唤醒就好了。
还有一种情况是：你的指令触发了小爱音箱内部的一些操作，比如播放/暂停，讲个笑话之类，

这种语音指令并不会被记录到小爱的历史消息中，故在外部无法接收到和正常处理你的此类语音指令。

注意：如果小爱同学正在播放音乐或者讲笑话，可能需要先让其暂停播放才能正常与 AI 对话，否则将会发生不可预期的错误。

Q：有时回答太长说个没完没了，如何打断小爱的回复？
只需重新唤醒小爱同学，让她闭嘴即可，或者重新问她一个问题。比如：“小爱同学，请你闭嘴。”

❌ 启动失败类问题
Q：提示“70016：登录验证失败”，无法正常启动
账号密码不正确。注意小米 ID 并非手机号或邮箱，请在「个人信息」-「小米 ID」:https://account.xiaomi.com/fe/service/account/profile查看，相关 issue:Issue #10 · idootop/mi-gpt。

Q：提示触发小米账号异地登录保护机制，等待 1 个小时后仍然无法正常启动
这是因为小米账号触发了异地登录保护机制，需要先通过安全验证。打开小米官网登录你的小米账号，手动通过安全验证，通常等待 1-24 小时左右就可以正常登录了。

注意：最好使用和你运行 docker 相同的网络环境，如果你是在海外服务器等非中国大陆网络环境下登录小米账号，需要先同意小米的「个人数据跨境传输」协议。相关教程:https://github.com/idootop/mi-gpt/issues/22#issuecomment-2150535622

在一些极端情况下，可能会因为你的服务器 IP 太脏，而导致一直无法正常访问小米账号登录链接。此时你可以尝试可以在本地运行 MiGPT，登录成功后把 .mi.json 文件导出，然后挂载到服务器对应容器的 /app/.mi.json 路径下即可解决此问题。相关 issuehttps://github.com/idootop/mi-gpt/issues/22#issuecomment-2148956802

  docker run -d  --env-file $(pwd)/.env \
    -v $(pwd)/.migpt.js:/app/.migpt.js \
    -v $(pwd)/.mi.json:/app/.mi.json \
    idootop/mi-gpt:latest

Q：提示“找不到设备：xxx”，初始化 Mi Services 失败
填写的设备 did 不存在，请检查设备名称是否和米家中的一致。相关 issue: Issue #30 · idootop/mi-gpt。

查看小爱音箱设备名称：打开米家 - 进入小爱音箱主页 - 点击右上角更多 - 设备名称

常见错误设备名称示例，建议直接复制米家中的设备名称：

// 错别字：响 -> 箱
❌ 小爱音响 -> ✅ 小爱音箱
// 多余的空格
❌ 小爱音箱 Pro -> ✅ 小爱音箱Pro
// 注意大小写
❌ 小爱音箱pro -> ✅ 小爱音箱Pro
某些情况下 Mina 和 MIoT 中的设备名称可能不一致，此时需要填写设备 did。

先在 .migpt.js 配置文件中打开调试，重启 docker

  // .migpt.js
export default {
  speaker: {
    // 是否启用调试
    debug: true,
    // 是否跟踪 Mi Service 相关日志（打开后可以查看设备 did）
    enableTrace: true,
    // ...
  },
};

docker 启动后会在控制台输出设备列表相关的日志，找到 MiNA 设备列表：

  MiNA 设备列表:  [
    {
        "deviceID": "xxxxxxx-xxxx-xxxx-xxxx-xxxxxx",
        "serialNumber": "xxxx/xxxxxxx",
        "name": "小爱音箱Pro",
        "alias": "小爱音箱Pro",
        "current": false,
        "presence": "online",
        "address": "222.xxx.0.xxx",
        "miotDID": "123456", 👈 这就是你的小爱音箱 did
        "hardware": "LX06",
        "romVersion": "1.88.51",
    }
]

然后找到你的小爱音箱的 miotDID 填入 .migpt.js 即可。

  export default {
  speaker: {
    // 小爱音箱 DID 或在米家中设置的名称
    did: "123456",
    // ...
  },
};

注意：Mina 获取不到共享设备，如果你的小爱音箱是共享设备，是无法正常启动本项目的。相关 issue: Issue #86 · idootop/mi-gpt

Q：提示“ERR_MODULE_NOT_FOUND”，无法正常启动
配置文件 .migpt.js 不存在或有错误。检查 docker 下是否存在 /app/.migpt.js 文件以及内容是否正确，相关 issue: Issue #45 · idootop/mi-gpt。

注意：在 Windows 终端（比如：PowerShell、cmd）下启动 docker 时，无法使用 $(pwd) 获取当前工作目录绝对路径，需要填写 .env 和 .migpt.js 文件的绝对路径。示例：

  docker run -d --env-file D:/hello/mi-gpt/.env -v D:/hello/mi-gpt/.migpt.js:/app/.migpt.js idootop/mi-gpt:latest

🔊 播放异常类问题
Q：小爱音箱收到消息后，没有调用 AI 进行回复
MiGPT 收到消息默认不会调用 AI 进行回复，只会回复以唤醒词开头的消息，比如：“请问 xxx”、“你 xxx” 等，你也可以自定义唤醒词（callAIKeywords）列表。

  // .migpt.js
export default {
  speaker: {
    // 当消息以下面的关键词开头时，会调用 AI 来回复消息
    callAIKeywords: ["请", "你", "傻妞"],
    // ...
  },
};

注意：你需要先召唤小爱同学，而非直接对小爱音箱说：“请你 xxx”，这样是无效的，因为还没有唤醒小爱同学，你说的话她接收不到。

// ❌ 错误示范
请问地球为什么是圆的？
// ✅ 正确示范
小爱同学，请问地球为什么是圆的？
Q：小爱音箱没有播放 AI 的回答，但控制台有打印 AI 的回复
不同型号的小爱音箱 TTS 指令不同: issues#5: https://github.com/idootop/mi-gpt/issues/5#issuecomment-2122881495

请到https://home.miot-spec.com查询具体指令，并修改配置文件中的 ttsCommand 参数。

查看教程：

Q：小爱音箱没有读完整个句子，总是戛然而止
部分型号的小爱音箱不支持通过 Mina 获取设备播放状态，只能通过 MiOT 指令查询。

请到 https://home.miot-spec.com 查询具体指令，并修改配置文件中的 playingCommand 参数。

查看教程：

如果修改参数后问题仍然存在，说明你的设备不支持通过开放接口查询播放状态（比如：小米音箱 Play 增强版），此问题无解。建议更换其他型号的小爱音箱（推荐小爱音箱 Pro），相关 issue：Issue #14 · idootop/mi-gpt。

或者你也可以关闭配置文件中的流式响应（streamResponse）选项，确保小爱能够回复完整的句子。不过需要注意的是，关闭流式响应后，唤醒模式等功能将会失效。

Q：进入唤醒模式时小爱莫名开始播放歌曲
有时小爱同学会把你进入唤醒模式的唤醒语，当成是歌曲名称来播放，比如“唤醒”等，此时可以尝试更换其他唤醒词，比如“打开”等。

📶 网络异常类问题
Q：提示“LLM 响应异常 Connection error”，AI 回复失败
网络异常。OpenAI 的服务在国内需要配代理才能访问，相关 issue: Issue #36 · idootop/mi-gpt。

对于国内环境无法访问 OpenAI 服务的情况，有以下几种处理方法：

环境变量里填上你的代理地址，比如：HTTP_PROXY=http://127.0.0.1（或 SOCKS_PROXY）
使用第三方部署的 OpenAI API 反向代理服务，然后更新 OPENAI_BASE_URL
使用国内的 LLM 服务提供商，比如通义千问、零一万物、Moonshot、DeepSeek等
对于国内用户，可以查看: https://github.com/idootop/mi-gpt/blob/main/docs/sponsors.md 获取国内可以直接访问的 OpenAI 代理服务以及免费的 OpenAI 体验 API_KEY。

Q：Docker 镜像拉取失败
网络异常。近期国内代理普遍不稳定，可以设置 Docker Hub 国内镜像。

🤖 大模型类问题
Q：我想在本地部署大模型，如何在本项目中使用？
你可以使用 Ollama、LM Studio、mistral.rs等项目在本地部署大模型，它们都开箱自带兼容 OpenAI 的 API 服务，修改对应的环境变量值即可完成接入。

Q：提示“LLM 响应异常 404 The model gpt-4o does not exist”
当前 OpenAI 账号没有使用 gpt-4 系列模型的权限，请切换到 gpt-3 系列模型，比如：gpt-3.5-turbo。相关 issue：https://github.com/idootop/mi-gpt/issues/30#issuecomment-2154656498

Q：提示“LLM 响应异常，401 Invalid Authentication”
无效的 OpenAI_API_KEY。请检查 OpenAI_API_KEY 是否能正常使用，以及对应环境变量是否生效。相关 issue：Issue #59 · idootop/mi-gpt

Q：提示“LLM 响应异常，403 PermissionDeniedError”
代理 IP 被 Cloudflare 风控了，试试看切换代理节点。或者把环境变量里的 HTTP_PROXY 设置成空字符串 HTTP_PROXY='' 关闭代理（仅适用于国产大模型）。相关 issue：Issue #33 · idootop/mi-gpt

Q：提示“LLM 响应异常，404 Not Found”
模型路径不存在或者代理 IP 被风控。请检查 OPENAI_BASEURL 等环境变量是否配置正确，或切换代理节点后重试。相关 issue：Issue #43 · idootop/mi-gpt

Q：是否支持 Azure OpenAI，如何配置？
如果你想使用 Azure OpenAI Service：https://azure.microsoft.com/en-us/products/ai-services/openai-service，可通过配置以下环境变量开启：

  OPENAI_API_VERSION=2024-04-01-preview
AZURE_OPENAI_API_KEY=你的密钥
AZURE_OPENAI_ENDPOINT=https://你的资源名.openai.azure.com
AZURE_OPENAI_DEPLOYMENT=你的模型部署名，比如：gpt-35-turbo-instruct

注意：Azure OpenAI Studio 部署页面显示的模型版本号，可能并非实际的 OPENAI_API_VERSION 值。请打开模型 Play Ground 页面，选择你想用的部署（模型），然后点击示例代码，查看里面的 api_version 并替换上面的 OPENAI_API_VERSION 的值。

⭐️ 其他问题
Q：如何打开调试开关？
调试模式下可以输出更为详细的错误日志，方便分析和定位错误来源。你可以按照下面的配置方式开启 debug 模式：

  // .migpt.js
export default {
  speaker: {
    // 打开调试开关
    debug: true,
    // ...
  },
};

Q：怎么在群晖上使用这个项目？
在群晖 docker 控制面板新建项目，按如下示例填写配置。

参考教程：Issue #41 · idootop/mi-gpt

  services:
  mi-gpt:
    image: idootop/mi-gpt:latest
    container_name: mi-gpt
    network_mode: bridge
    environment:
      - TZ=Asia/Shanghai
    env_file:
      - /volume1/docker/xiaomi/.env
    volumes:
      - /volume1/docker/xiaomi/.migpt.js:/app/.migpt.js

注意：其中的 env_file 和 volumes 路径，请根据自己的配置文件实际路径来填写。

Q：“小爱同学”唤醒词能否换成其他的，比如“豆包”等
不可以，小爱音箱的唤醒词（小爱同学，xxx）是小爱音箱固件里写死的，外部无法自定义。

要想修改只能刷机替换自己训练的语音识别模型。

Q：如何关闭 AI 开始和结束回复的提示语？
在配置文件中，将对应提示语属性设置成空数组即可，比如：

  
// .migpt.js
export default {
  speaker: {
    // 取消进入 AI 模式的欢迎语
    onEnterAI: [],
    // 取消退出 AI 模式的提示语
    onExitAI: [],
    // 取消 AI 开始回答时的提示语
    onAIAsking: [],
    // 取消 AI 结束回答时的提示语
    onAIReplied: [],
    // ...
  },
};

注意：提示语是为了更好的提示当前小爱回复的状态，去掉提示语可能会导致感觉小爱没有反应。

Q：是否支持同时使用多个小米音箱设备/账号？
目前 MiGPT 只支持单实例运行。但是你可以通过创建多个不同设备/账号配置的 docker 容器，来实现对多设备/账号的支持，相关 issue：Issue #51 · idootop/mi-gpt。

Q：MiGPT 是否需要和小爱音箱在同一局域网下运行？
不需要。MiGPT 底层是调用的 MIoT 云端接口，可在任意设备或服务器上运行，无需和小爱音箱在同一局域网下。

Q：原来的小爱同学会在 AI 回答之前抢话？
与本项目的实现原理有关。本项目通过轮询小米接口获取最新的对话信息，当检测到小爱在回复的时候会通过播放静音音频等方式快速 mute 掉小爱原来的回复。但是从小爱开始回复，到上报状态给小米服务云端，再到本项目通过小米云端接口轮训到这个状态变更，中间会有大约 1 -2 秒的延迟时间，无解。

这个问题，理论上需要通过刷机才能完美解决，可以参考下面的相关讨论：

yihong0618/xiaogpt#515 (comment)：https://github.com/yihong0618/xiaogpt/issues/515#issuecomment-2121602572
#21 (comment)：https://github.com/idootop/mi-gpt/issues/21#issuecomment-2147125219
Q：怎样在使用时修改小爱音箱的人物设定？
试试这样说：小爱同学，你是 xxx，你 xxx，比如：

小爱同学，你是蔡徐坤。你是一名歌手，喜欢唱跳 rap。
或者如果你想更新自己的人物设定，可以这样说：小爱同学，我是 xxx，我 xxx

Q：怎样使用豆包的音色
本项目暂不对外提供豆包 TTS 服务，但是你可以使用与豆包同款的火山 TTS 引擎。

具体的配置和使用教程，请查看此处：[使用第三方 TTS]：https://github.com/idootop/mi-gpt/blob/main/docs/tts.md

Q：怎样控制米家设备？
这是一个 todo 功能，尚未开始开发。后面有时间的话，我会继续添加智能家居 Agents 和插件系统（比如联网搜索，自定义语音指令）等功能，保持关注。

Q：我还有其他问题
请先在 FAQ 和 issue 列表搜索是否有人遇到与你类似的问题并已解答。如果确认是新的问题，请在此处提交 [issue]：https://github.com/idootop/mi-gpt/issues 反馈，并提供详细的问题描述和相关错误截图。

AI前沿

浏览 (3044)