構文類似度報酬を用いたGRPOを適用したReasoningモデルによる特許請求項の日英翻訳

Abstract

特許請求項は,独特な書式と複雑な構文構造を持つ法的文書である.そのため,その翻訳には,原文の複雑な構文構造を正確に理解するだけでなく,翻訳先言語における特許固有の構文構造に従うことが求められる.本研究では,原文の構文構造をより正確に捉えるために Reasoning モデルを活用し,翻訳先言語における特許固有の構文構造を翻訳に反映させるために,構文構造の類似度を測る FastKASSIMを従来の BLEU や COMET といった評価尺度とともに強化学習の報酬として組み込む.実験の結果,Qwen3-8B をベースに学習したモデルが,約 30 倍の規模の Qwen3-235B ベースのモデルに匹敵する,あるいは上回る性能を達成した.また,FastKASSIMを報酬に用いることが,翻訳先言語での構文構造を反映した翻訳に寄与することを定性的に示した.

Publication
言語処理学会第32回年次大会 (NLP2026)

Add the full text or supplementary notes for the publication here using Markdown formatting.