もっと詳しく

3つの要点 ?? テキストから動画生成を可能にした最大かつ最初のオープンソースモデルであるCogVideoを提案 ?? 事前学習したテキスト-画像生成モデルCogView2をテキスト-動画生成モデルに継承することで効率的な学習を実現 ??より適切なテキストとクリップのペアの位置関係を得るためのマルチフレームレ…