ラズパイ5のみで動くLLM＋物体検出＋RAG搭載オフラインAIアシスタント

2026年3月11日

クラウドのAIアシスタントは便利だが、外部サーバーへの依存が常につきまとう。ラズパイ5単体でオフラインのマルチモーダルAIを動かしたのが、GitHubユーザーのChappie02氏（Suhas S Telkar氏）だ。2026年初頭に公開したプロジェクト「Multi-Modal-AI-Assistant-on-Raspberry-Pi-5」は、会話・物体検出・会話メモリをM.2アクセラレーターなしにラズパイ5の4GBメモリだけで完結させている。

操作は0.96インチOLEDと3つの物理ボタンのみで完結する。K1を1秒以上押し続けるとプッシュトーク会話モードになり、離した瞬間に録音した音声がVoskで文字に変換されてLLMに渡される。K2を押すと搭載カメラで静止画を撮影しYOLOv8 Nanoが物体を検出、結果をOLEDに表示して読み上げる。K3は単純な画像保存だ。LLMの応答はOLED上にリアルタイムでトークンが流れ、生成完了後にespeakで読み上げられる。

LLMはGemma 3 4B（IQ4_XS量子化、約2.3GB）をllama.cppで動かす。トークン生成速度は5〜10トークン/秒、初回応答まで3〜8秒という数値は、M.2アクセラレーターを持たないラズパイ5単体としては実用的な水準だ。ピーク時のRAM消費は3.2〜3.5GBに達するため、4GBモデルが推奨される。

会話の記憶を担うのはChromaDB＋all-MiniLM-L6-v2によるRAG（検索拡張生成）で、過去の会話と知識ベースから上位3件の文脈を引き出してLLMに渡す。会話ログは最大100件のローリングウィンドウで管理され、メモリとストレージの増加を抑える設計だ。

インストールにはモデルの自動ダウンロードスクリプトが付属する。llama-cpp-pythonはARM64でのソースビルドが必要なため初回インストールに10〜15分かかる点は注意が必要だ。コードはMITライセンスで公開されている。