JParaCrawl v4.0: クラウドソーシングを併用した大規模対訳コーパスの構築

森下睦, 帖佐克己, 永田昌明

March, 2024

Abstract

現在の機械翻訳モデルは主に対訳コーパスを用いて学習されており、その翻訳精度は対訳コーパスの質と量に大きく依存している。本稿では、新たにウェブをクロールし日英対訳文を抽出することで大規模日英対訳コーパスを構築し、翻訳精度の底上げを狙う。なおこの際クラウドソーシングを活用して対訳文が存在するウェブサイトを発見することで、効率的な対訳文収集を目指す。今回ウェブから収集した対訳文と以前作成した日英対訳コーパスJParaCrawl v3.0 を合わせることで、合計 4400 万文を超える日英最大規模の対訳コーパスを作成することに成功した。実験により、新たな対訳コーパスを用いて学習した翻訳モデルが様々な分野で高い翻訳精度を発揮することを示す。なお、今回作成した対訳コーパスを JParaCrawl v4.0 と名付け、我々のウェブサイト上で研究目的利用に限り無償公開する予定である。

Type

Report

Publication

言語処理学会第30回年次大会