「メガネどこ？」に答えるロボット、3Dカメラと言語モデルで探索効率を30%向上——ミュンヘン工科大が開発

2026年3月19日

「眼鏡をどこかに置いてきた」——そういう状況に対応できるロボットを、ドイツのミュンヘン工科大学（TUM）の研究チームが開発した。見た目はほうきの柄のような細長いフレームにカメラを取り付けた程度の装置だが、3Dカメラと大規模言語モデル（LLM）を組み合わせることで、室内の物体を探す効率をランダム探索比で約30%向上させた。論文は2026年3月にIEEE Robotics and Automation Lettersに掲載された。開発を主導したのはTUM Learning Systems and Robotics LabのAngela Schoellig氏のチームで、第一著者はBenjamin Bogenberger氏だ。

ロボットはまず部屋を見回しながら、カメラが取得した2D画像のピクセルに含まれる奥行き情報を使ってセンチメートル単位の精度で空間の3Dマップを生成する。このマップは常時更新される。次に、LLMがそのマップ内の物体の「関係性」を推論する。眼鏡ならテーブルや窓枠には置かれやすいが、コンロや流し台には置かれにくい——という人間の行動パターンをLLMが知識として持っており、その推論結果を「探す確率」として3Dマップ上の各場所に数値で割り当てる。ロボットはこの確率マップに従って高優先度の場所から順に確認することで、探索全体の効率が上がる。「言語モデルが物体間の関係性を捉え、私たちはその情報をロボットの言語に変換している」とSchoellig氏は説明している。

もうひとつの特徴は変化の検出だ。ロボットは過去の映像を記憶しており、新しい視覚情報と比較することで「さっきはなかった物体がここにある」という変化を約95%の精度で検出できる。その場所は探索対象が置かれた可能性が高いとして優先度が引き上げられる。

Schoellig氏は「変化し続ける空間を動き回るすべてのロボットにとって、この基礎的な理解能力は重要だ」と述べており、工場で働くヒューマノイドロボットや家庭内の介護ロボットへの応用を視野に入れている。現時点では引き出しや戸棚といった閉じた空間には対応していないが、次の段階としてロボットアームを使って扉や引き出しを開ける機能の開発を進めている。扉の開き方の判断やハンドルの把持まで含めた実装を計画中だという。