JParaCrawl Chinese v2.0: クラウドソーシングを用いた日中対訳コーパスの構築

Abstract

我々はクラウドソーシングを使って、日中対訳web サイトのトップページ URL の対を約 1 万件収集し、約 460 万文対の日中対訳コーパスを作成した。まずトップページ URL を起点としてそのドメインをクロールし、次に 16 万語対の日中対訳辞書を用いて文書対応と文対応を行い、最後に別途用意した120 万文対の高品質な日中対訳文対から作成した対訳コーパスフィルタを用いてフィルタリングを行った。我々の日中対訳コーパス 460 万文対は、既存の日中対訳コーパス CCMatrix(1,240 万文対)[1] に比べ、大きさはの約 3 分の 1 であるが、翻訳精度は同等であり、クラウドソーシングの有効性を示せた。

Publication
言語処理学会第31回年次大会 (NLP2025)