Categories: 工作・開発

ラズパイ5とM.2アクセラレーターで動くオフライン音声AI「AImy」、APIキー不要でカメラ・音声・LLMをローカル処理

クラウドのAI音声アシスタントは便利だが、APIキーや月額料金が必要で、インターネットが切れると動かなくなる。この問題を解決しようとしたのが、Raspberry Pi 5とM.2型LLMアクセラレーターだけで完全オフライン動作する音声AIアシスタントだ。

GitHubユーザーのmalonestar氏は、2025年10月にM5StackとAxeraが「LLM 8850」M.2カードをリリースしたのをきっかけに開発を開始した。2026年2月末にGitHub上でコードを公開した「AImy」（「エイミー」と読む）は、APIキー・有料トークン・外部サーバーのいずれも必要とせず、初回ダウンロード後はインターネット接続なしで動作する。

処理パイプラインは「音声認識→LLM推論→音声合成」をすべてローカルで担う構成だ。音声認識（ASR）にAxeraのSenseVoice、LLMにQwen2.5-1.5B-IT-int8、音声合成（TTS）にMeloTTSを使い、物体検出はYolo11xで担う。ウェイクワード検出はVosk（デフォルト、完全APIフリー）とPicovoice Porcupine（無料APIキーが必要）から選択できる。

ハードウェアはRaspberry Pi 5（8GB）にM.2 Hat+を経由してLLM 8850カードを接続し、USB接続のマイクとスピーカーとラズパイカメラを組み合わせる構成だ。動作時のメモリ消費はラズパイ本体側が約1GB、アクセラレーターボード側が約2.5GBとなる。OSはDebian Trixieで、Python 3.11以降に対応している。

カメラ映像には「ROI（関心領域）」を設定でき、その範囲内に人物が5秒以上検出されるとウェイクワードなしに自動でアシスタントが起動する。GUIにはシンプルな顔型UIが用意されており、テキスト入力でのプロンプト送信にも対応する。設定ファイルでDiscordのWebhookを有効にすると、人物を検出した際に画像と通知メッセージをDiscordサーバーへ自動送信する機能も備える。

インストールスクリプトが同梱されており、リポジトリのcloneからモデルのダウンロード・仮想環境の構築まで一括で処理する。作者によると、ハードウェアさえ用意できれば初回起動まで約8〜10分で完了するという。