
北京大学、ByteDance、カーネギーメロン大学の共同研究チームが、1枚のRGB画像から複数の意味的に異なる3Dメッシュパーツを同時生成できる新しいAI技術「PartCrafter」を発表した。従来の3D生成AIが一塊の形状しか作れなかったのに対し、PartCrafterは椅子なら座面・背もたれ・脚部といった個別パーツを意識して3Dモデルを生成できる初の技術として注目される。この技術により、3Dプリンターでの製造や3DCGでの編集作業が格段に効率化される可能性がある。
従来の3Dデータ生成手法は、画像をまず分割してから各部分を3Dモデル化する2段階プロセスが主流だった。しかしPartCrafterは統一されたアーキテクチャで、事前分割なしに複数パーツを同時生成する革新的なアプローチを採用している。この手法により、入力画像で直接見えない隠れたパーツも含めて、構造的に意味のある3Dモデルを生成できるという。
大規模データセットと新アーキテクチャで実現
PartCrafterの核となる技術は、2つの革新的な仕組みから成る。1つ目は「コンポジショナル潜在空間」と呼ばれる技術で、AIが椅子の脚部や座面といった各パーツを別々の情報として認識・記憶できる仕組みだ。従来のAIは物体全体を一つの塊として扱っていたが、PartCrafterはパーツごとに異なる「タグ」を付けることで、それぞれを区別して処理できるようになった。
2つ目は「階層的注意機構」で、これは人間が物を見るときの視線の動きをAIで再現した技術だ。例えば椅子を見る際、人間は脚部の細かい装飾に注目しながらも、全体のバランスや一体感も同時に把握している。PartCrafterもこれと同様に、パーツの細部に集中しつつ、全体の調和も考慮してバランスの取れた3Dモデルを生成する。入力された写真の情報は、パーツレベルと全体レベルの両方で活用され、現実的で一貫性のある3D形状を作り出している。
13万個の3Dオブジェクトで学習

研究チームは大規模3Dオブジェクトデータセットからパーツレベルのアノテーションを抽出し、新たなデータセットを構築した。総計13万個の3Dオブジェクトを収集し、そのうち10万個が複数パーツを含む。さらにテクスチャ品質、パーツ数、パーツレベルのIoU(Intersection over Union)に基づいてフィルタリングを実行し、約5万個のパーツラベル付きオブジェクトと30万個の個別パーツからなる高品質なデータセットを完成させた。
実験結果では、PartCrafterが既存手法を上回る分解可能な3Dメッシュ生成性能を示している。特に入力画像で直接見えないパーツも含めて生成できる点が評価されており、3D理解と合成におけるパーツ認識生成事前学習の有効性が実証されている。
研究チームによると、コードと学習データは今後公開予定とのことだ。この技術は3Dプリンティング業界でのパーツ分割製造、ゲーム・映像制作でのアセット生成、CAD設計支援など、幅広い分野での応用が期待される。研究チームによると、コードと学習データは今後公開予定とのことだ。
論文は2025年6月5日にarXivで公開され、北京大学のYuchen Lin氏を筆頭著者とする研究チームによる成果として発表されている。共同研究には北京大学のYadong Mu教授、カーネギーメロン大学のKaterina Fragkiadaki准教授らが参加している。