コンテンツにスキップ

現実世界における視覚参照表現理解に向けて-視覚特徴の活用方法-

船越 大輝(2023年度修了)

「台の上の青いマグカップ」や「マグカップの近くにあるチョコレート」のように、特定のオブジェクトを他のオブジェクトと区別するような自然言語による表現を参照表現と言い、これらの参照表現をコンピュータに理解させるのが視覚参照表現理解というタスクである。視覚参照表現理解の研究は、視覚言語推論タスク(vision language reasoning task)として定式化され、大量のバウンディングボックスと、そのペアとなる参照表現とを用いて学習した深層学習モデルとしてのアプローチが一般的であった。しかし、近年登場した大規模言語モデルを用いることで、視覚参照表現理解というタスクを純粋な言語推論タスクとして再定式化し、視覚的な特徴のメタ情報をテキストで大規模言語モデルに入力することによって、大規模言語モデルによる視覚参照表現理解が可能になることが明らかとなった。

本研究では、これまで視覚参照表現理解には存在しなかった、不完全な参照表現に対するフィードバック手法について検討する。大規模言語モデルを用いた視覚参照表現理解では、メタ情報として視覚的な特徴を入力した上で視覚参照表現理解を行うことから、オブジェクトの一意な識別に重要な役割を果たす視覚特徴を事前に把握することで、ユーザによって入力された表現に含まれる視覚特徴が視覚参照表現理解をするにあたって必要な情報量を満たしていないような場合にフィードバックすることが可能であると考えた。本研究では本棚を対象として、本棚から得られる視覚特徴の組み合わせによって一意に識別できるオブジェクトの割合を求める実験を行った結果、オブジェクトの識別に対して重要な役割を果たす視覚特徴が明らかとなった。

本研究で得られた知見によって、現実世界で発生しうるシナリオにおけるスムーズな参照表現理解への貢献や、日常生活における情報伝達の改善への貢献が期待される。


学位論文に戻る