Categories: 工作・開発

ブレッドボードだけで作るAI音声アシスタント——Xiao ESP32-S3とオープンソースファームウェアで目と口が動く顔UI付きに

市販のAIスピーカーは完成品のデモを見せるだけで、作り方を教えてくれない。Tech Talkiesがそこへの反論として作ったのが、ブレッドボード上に部品を挿すだけで動くAI音声アシスタントだ。2026年2月18日にHackster.ioとGitHubでファームウェアとソースを公開した。

使う部品は5点で、すべてブレッドボードとジャンパーワイヤーで接続するためはんだ付けは不要だ。マイコンはSeeed Studio Xiao ESP32-S3（内蔵バッテリー管理あり、将来のケース化を見越した選択）、マイクはI2S接続のINMP441 MEMSマイク、スピーカー出力はMAX98357A I2Sアンプ、表示は0.96インチOLEDディスプレイ（128×64）、あとは小型スピーカーを1個用意するだけだ。

ソフトウェアの核となるのは中国発のオープンソースファームウェア「Xiaozhi（小智）」だ。音声認識・LLM推論・音声合成はクラウドサービス（xiaozhi.me）側で処理し、ESP32-S3はマイク入力・スピーカー出力・表示とWi-Fi通信を担うエッジ・クラウドの分担構造になっている。セットアップは、ファームウェアを書き込んだ後にスマートフォンでデバイスのWi-Fiホットスポットに接続し、ブラウザからWi-Fi設定を入力、表示された確認コードをxiaozhi.meに登録するだけで完了する。

Tech Talkiesが独自に手を加えたのが顔アニメーションUIだ。Xiaozhi標準のテキスト字幕とアイコンベースの表情を取り除き、LVGLで描いた「目」と「口」を持つ顔に作り替えた。アイドル時はゆっくり目を動かしランダムにまばたきし、聴取中は左右非対称の目で「耳を傾ける」表情になり、発話中は口が動的に開閉する。アニメーション処理はLVGLタイマーでノンブロッキングに実装されており、音声処理やネットワーク通信に影響しない。外部プロセッサは一切使わず、ESP32-S3のみで完結している。

「Hi ESP」と声をかければすぐ反応し、音量調整・天気確認・ジョーク・日付確認といった基本的な対話ができる。使用するLLMはxiaozhi.meの設定で変更でき、言語やアシスタントの名前も設定可能だ。ファームウェアはBIN形式（Xiao ESP32-S3専用）とソースコードの両方をGitHubで公開しており、表情や動作を変えたい場合は自分でビルドできる。