
MITの研究チームが、CADソフトウェアを人間のように操作して2Dスケッチから3Dモデルを生成するAIエージェントを開発した。2025年11月19日に発表され、2025年12月にサンディエゴで開催されるNeurIPS 2025で発表予定となっている。
CADソフトウェアは産業製品の設計に不可欠なツールだが、習得には長い時間を要する。コマンドは数千種類にのぼり、熟練するには膨大な練習が必要だ。研究チームはこの学習曲線を緩和するため、CADのUIを直接制御するAIエージェントの開発に取り組んだ。
研究チームは「VideoCAD」と名付けた4万1000件以上のCAD操作動画データセットを作成した。元データには、人間のデザイナーがOnshape(ブラウザベースのCADプラットフォーム)で作成したパラメトリックCADモデルを収録したDeepCADデータセットを使用している。各モデルには「線を描く」「円を描く」「押し出す」といった高レベルの設計コマンドが記録されているが、実際にCADソフトを操作するには、どの領域を選択するか、いつズームするか、どの部分を押し出すかといった詳細な判断が必要となる。研究チームはこれらの高レベルコマンドを、ピクセル座標でのクリックやドラッグといったUI操作に変換するシステムを開発した。
UIエージェントからCADコパイロットへ
従来のAI駆動UIエージェントは、Webブラウザーで情報を収集してExcelにまとめるといった比較的単純なタスクを対象としていた。CADはそれらと比べて機能が多く、タスクも複雑だ。VideoCADのタイムホライズン(操作の連続時間)は既存のUIエージェント向けデータセットの20倍に達するという。
研究チームが開発したTransformerベースのモデル「VideoCADFormer」は、2Dスケッチを入力として受け取り、CADソフトウェアを直接制御する。クリック、ドラッグ、ツール選択といった操作を実行し、単純なブラケットから複雑な家のデザインまで3D形状を構築できる。既存の行動クローニング手法と比較して最大20%性能が向上したとしている。
研究チームは将来的に「CADコパイロット」の実現を目指している。設計の3Dバージョンを作成するだけでなく、ユーザーと協働して次のステップを提案したり、繰り返しの多い操作を自動化したりする用途を想定している。
MIT機械工学科のFaez Ahmed准教授は「CADのトレーニングを何年も受けていない人でも、より簡単に3Dモデルを作成し、創造性を発揮できるようになる」と述べている。Autodesk ResearchのMehdi Ataei氏は「VideoCADは、新規ユーザーのオンボーディングや定型的なモデリング作業の自動化を支援するAIアシスタントに向けた第一歩だ」とコメントしている。
研究には大学院生のBrandon Man氏、Ghadi Nehme氏、ポスドクのMd Ferdous Alam氏が参加している。データセットとコードはGitHubで公開されている。
関連情報
New AI agent learns to use CAD to create 3D objects from sketches(MIT News)

