Categories: 工作・開発

ラズパイ5とM.2アクセラレーターで動くオフライン音声AI「AImy」、APIキー不要でカメラ・音声・LLMをローカル処理

クラウドのAI音声アシスタントは便利だが、APIキーや月額料金が必要で、インターネットが切れると動かなくなる。この問題を解決しようとしたのが、Raspberry Pi 5とM.2型LLMアクセラレーターだけで完全オフライン動作する音声AIアシスタントだ。

GitHubユーザーのmalonestar氏は、2025年10月にM5StackとAxeraが「LLM 8850」M.2カードをリリースしたのをきっかけに開発を開始した。2026年2月末にGitHub上でコードを公開した「AImy」(「エイミー」と読む)は、APIキー・有料トークン・外部サーバーのいずれも必要とせず、初回ダウンロード後はインターネット接続なしで動作する。

処理パイプラインは「音声認識→LLM推論→音声合成」をすべてローカルで担う構成だ。音声認識(ASR)にAxeraのSenseVoice、LLMにQwen2.5-1.5B-IT-int8、音声合成(TTS)にMeloTTSを使い、物体検出はYolo11xで担う。ウェイクワード検出はVosk(デフォルト、完全APIフリー)とPicovoice Porcupine(無料APIキーが必要)から選択できる。

ハードウェアはRaspberry Pi 5(8GB)にM.2 Hat+を経由してLLM 8850カードを接続し、USB接続のマイクとスピーカーとラズパイカメラを組み合わせる構成だ。動作時のメモリ消費はラズパイ本体側が約1GB、アクセラレーターボード側が約2.5GBとなる。OSはDebian Trixieで、Python 3.11以降に対応している。

カメラ映像には「ROI(関心領域)」を設定でき、その範囲内に人物が5秒以上検出されるとウェイクワードなしに自動でアシスタントが起動する。GUIにはシンプルな顔型UIが用意されており、テキスト入力でのプロンプト送信にも対応する。設定ファイルでDiscordのWebhookを有効にすると、人物を検出した際に画像と通知メッセージをDiscordサーバーへ自動送信する機能も備える。

インストールスクリプトが同梱されており、リポジトリのcloneからモデルのダウンロード・仮想環境の構築まで一括で処理する。作者によると、ハードウェアさえ用意できれば初回起動まで約8〜10分で完了するという。

関連情報

FabScene編集部

FabScene編集部