JaParaPat: 大規模日英特許対訳コーパス

Abstract

2000 年から 2021 年に日本特許庁 (JPO) と米国特許商標庁 (USPTO) から公開された特許出願から約 3億文対の日英対訳コーパスを作成した。欧州特許庁(EPO) が管理する書誌データベース DOCDB からパテントファミリーに基づいて対訳文書対を抽出し、機械翻訳に基づく文対応を用いて対訳文対を抽出した。Web から収集した約 2000 万文対の対訳データJParaCrawl に対して、特許出願から収集した約 3 億文対の対訳データを追加することにより、日英特許翻訳の精度が約 20BLEU ポイント向上した。

Publication
言語処理学会第30回年次大会