言葉だけでロボットを動かす——HuaweiらがLLM接続フレームワークをOSSで公開

FabScene(ファブシーン)

ロボットに「コーヒーを作って」と指示すると、カップを取る・お湯を注ぐ・蓋を閉めるといった12の動作に分解して実行する。今のロボットにこれをさせるには、個々の動作を事細かくプログラムし直す必要があり、それが実用化の大きな壁になっている。その壁を下げるための仕組みを、Huawei Noah’s Ark Lab、独TU Darmstadt、スイスETH Zurichらの研究グループがNature Machine Intelligence誌に発表した(DOI: 10.1038/s42256-026-01186-z)。論文は2026年3月16日付け。

仕組みの核心は「大規模言語モデル(LLM)をロボット制御基盤のROSと接続する」ことだ。ROSとはロボット用のOS的なソフトウェア基盤で、世界中の研究機関や製造現場で広く使われている。LLMはChatGPTのような言語AI。この2つを直接つなぐ中間層を研究グループは開発した。

動作する流れはこうだ。人間が自然な言語で指示を出す。LLMがその指示を解釈し、ロボットが実行できる動作の手順に変換する。その手順をROSが受け取り、実際にモーターや関節を動かす。失敗した場合はフィードバックを受けてやり直す。人間が直接修正を伝えることもできる。

実行方式は2種類が選べる。一つはLLMがそのままコードを生成してロボットを制御する方法、もう一つは「もし〜ならAをする、失敗したらBをする」というような判断の分岐構造(ビヘイビアツリー)を生成する方法だ。分岐構造を使うと、途中で何か問題が起きても状況に応じて別の手順を試せる。

実験ではテーブルの上の物を並び替えるタスク、工場を模した化学実験のセットアップ、移動しながら操作するロボット、遠隔操作など複数の場面で検証し、いずれでも動作したと報告している。すべての実験はオープンソースのLLMのみで実施しており、特定の商用サービスへの依存がない点も特徴だ。

コードはGitHubでMITライセンスに近い形で公開されている(github.com/huawei-noah/HEBO/tree/master/ROSLLM)。

関連情報

fabsceneの更新情報はXで配信中です

この記事の感想・意見をSNSで共有しよう
  • URLをコピーしました!
目次