画像キャプショニングのための制約語の抽出法

Abstract

従来の画像キャプショニングには画像とは無関係の語を含むキャプションをしばしば生成するという問題がある.これを解決するため,画像に関連する語をあらかじめ与えた上でキャプションを生成する手法が提案されているが,その自動決定法については議論がされていない.本研究では,物体検出器が出力するラベル (物体名) をその信頼度スコアと顕著性スコアを組み合わせてランキングすることでキャプションに含めるべき語を決定する手法を提案する.提案法で得た単語と人手生成の正解キャプション中の単語を比較した結果,自動抽出した単語のうち半数程度はキャプションに含まれていた.さらに人手評価を行ったところ,キャプションには含まれない単語であっても,その多くはキャプション生成が可能な程度に画像に関連した語であることがわかった.

Publication
言語処理学会第29回年次大会 (NLP2023)