もっと詳しく

3つの要点 ?? 画像とキャプションを入力としたトレースの生成、画像のみを入力としたキャプションとトレースの生成という2つの新規タスクを提案 ?? 画像・キャプション・トレースを共同で学習させるためのtransformerアーキテクチャであるMIrrored TransformeR(MITR)を提案 ??4つの既存データセットを…