文脈情報を考慮した高速な日英文アラインメント

Abstract

本論文では大規模対訳コーパスの作成に向けた高精度かつ高速な文アラインメント手法を提案する.従来手法では文外文脈およびトークン単位の情報を予測時に考慮することで高精度な文アラインメントを実現していたが,予測時の計算量が大きいことから大規模なデータへの適用が難しかった.本論文では,両方の言語の文脈情報を考慮した文ベクトルを用いて対訳文書間の全てのアラインメントを同時に予測することで,小さい計算量で高精度な文アラインメントを獲得する手法を提案する.日英での新聞記事を用いた実験により,提案手法が予測速度を維持しながら高い精度でアラインメントを行えることを示した.

Publication
言語処理学会第29回年次大会 (NLP2023)