市販のAIスピーカーは完成品のデモを見せるだけで、作り方を教えてくれない。Tech Talkiesがそこへの反論として作ったのが、ブレッドボード上に部品を挿すだけで動くAI音声アシスタントだ。2026年2月18日にHackster.ioとGitHubでファームウェアとソースを公開した。
使う部品は5点で、すべてブレッドボードとジャンパーワイヤーで接続するためはんだ付けは不要だ。マイコンはSeeed Studio Xiao ESP32-S3(内蔵バッテリー管理あり、将来のケース化を見越した選択)、マイクはI2S接続のINMP441 MEMSマイク、スピーカー出力はMAX98357A I2Sアンプ、表示は0.96インチOLEDディスプレイ(128×64)、あとは小型スピーカーを1個用意するだけだ。
ソフトウェアの核となるのは中国発のオープンソースファームウェア「Xiaozhi(小智)」だ。音声認識・LLM推論・音声合成はクラウドサービス(xiaozhi.me)側で処理し、ESP32-S3はマイク入力・スピーカー出力・表示とWi-Fi通信を担うエッジ・クラウドの分担構造になっている。セットアップは、ファームウェアを書き込んだ後にスマートフォンでデバイスのWi-Fiホットスポットに接続し、ブラウザからWi-Fi設定を入力、表示された確認コードをxiaozhi.meに登録するだけで完了する。
Tech Talkiesが独自に手を加えたのが顔アニメーションUIだ。Xiaozhi標準のテキスト字幕とアイコンベースの表情を取り除き、LVGLで描いた「目」と「口」を持つ顔に作り替えた。アイドル時はゆっくり目を動かしランダムにまばたきし、聴取中は左右非対称の目で「耳を傾ける」表情になり、発話中は口が動的に開閉する。アニメーション処理はLVGLタイマーでノンブロッキングに実装されており、音声処理やネットワーク通信に影響しない。外部プロセッサは一切使わず、ESP32-S3のみで完結している。
「Hi ESP」と声をかければすぐ反応し、音量調整・天気確認・ジョーク・日付確認といった基本的な対話ができる。使用するLLMはxiaozhi.meの設定で変更でき、言語やアシスタントの名前も設定可能だ。ファームウェアはBIN形式(Xiao ESP32-S3専用)とソースコードの両方をGitHubで公開しており、表情や動作を変えたい場合は自分でビルドできる。