3つの要点 ?? 話し手の動作と音声のモダリティを合成するmotion-audio cross-attention transformerを提案 ?? 聞き手の動きの離散的な潜在表現を学習するsequence-encoding VQ-VAEを導入 ?? ビデオ撮影された二人組の会話からなる大規模なデータセットを作成 Learning to Listen: Modeling Non-Determi…
3つの要点 ?? 話し手の動作と音声のモダリティを合成するmotion-audio cross-attention transformerを提案 ?? 聞き手の動きの離散的な潜在表現を学習するsequence-encoding VQ-VAEを導入 ?? ビデオ撮影された二人組の会話からなる大規模なデータセットを作成 Learning to Listen: Modeling Non-Determi…