単一のhubテキストがCLIPを壊す：hubnessによるクロスモーダル埋め込みの脆弱性特定

出口祥之, 帖佐克己, 坂井優介

March, 2026

Abstract

無関係な多くの事例と高い類似度を示す hub 埋め込みは、埋め込みに基づく情報検索や品質評価指標などにおいてノイズとなる。特に、テキスト・画像のような直接比較できないモダリティ間の類似度計算は CLIP などの埋め込みに頼る必要があり、hubの存在はモデルの信頼性に影響する。本稿では、クロスモーダル埋め込みモデルの脆弱性を特定するため、hub 埋め込みに射影されてしまう hub テキストの探索法を提案する。画像キャプションの品質評価および画像テキスト検索実験より、単一の hub テキストが各画像ごとに個別に生成したキャプションより高い ClipScore を示し、また、hub テキストの混入により検索性能が大幅に低下することを確認した。

Type

Report

Publication

言語処理学会第32回年次大会 (NLP2026)

Add the full text or supplementary notes for the publication here using Markdown formatting.