DisneyResearch|Studios、スケッチや写真から3D顔形状を生成する技術を発表

2025年10月28日

FabScene（ファブシーン） — 複数の入力方法による3D顔形状生成の例。画像出典元：DisneyResearch|Studios

DisneyResearch|StudiosとスイスのETH Zurichの研究チームが、複数の入力方法で3D顔形状を生成できる新技術を発表した。手描きスケッチ、写真、テキストなど6種類の入力方法に対応し、単一のモデルで顔のアイデンティティと表情を制御できる。論文は2025年10月26日に公開された。

この技術は拡散プロセス（diffusion process：ノイズから徐々にデータを生成する手法）を用いて、2次元のUVパラメータ空間で3D形状を生成する。入力として手描きスケッチ、肖像写真、Cannyエッジ（エッジ検出アルゴリズム）、FLAMEモデルパラメータ（顔形状の統計モデル）、2次元顔ランドマーク、テキストプロンプトの6種類に対応する。

各入力信号はIP-Adapterと呼ばれるクロスアテンション層を通過する。これにより、ユーザーは複数の条件を組み合わせて詳細に制御できる。生成される3D形状はトポロジーが一貫しており、高品質な形状を維持する。

研究チームは432個の検証データセットで精度を評価した。FLAMEパラメータや肖像写真など、詳細な情報を含む入力ほど元の形状との誤差が小さかった。テキストから3D形状を生成する処理では、競合手法と比較して7倍以上高速な5.48秒で完了する。既存手法の多くがSDS最適化（Score Distillation Sampling：反復的な最適化手法）を使用するのに対し、この技術は学習済みモデルから直接サンプリングするため高速化を達成した。

動画からの入力にも対応しており、フレーム間で安定した顔アニメーションを生成できる。また、顔の特定領域のみに制約を適用することで、部分的な形状編集も可能だ。