TOP活動実績2005年

(47) 隣接情報学習を用いた多言語対訳コーパスからの対訳語の自動抽出
   電子情報通信学会論文誌 D-II,Vol.J88-D-II,NO.4,pp.757-768

本論文では,言語リソースの乏しい言語も含めた,様々な言語の対訳コーパスから対訳語を効率よく抽出する手法として,隣接情報学習を用いた対訳語の自動抽出手法を提案する.提案手法では,対訳語と隣接関係にある単語列の情報を獲得し,それを用いることで,単語間の対応関係の曖昧性を解消する.獲得される情報は,対訳文において抽出対象の対訳語の原言語の単語に隣接する単語列が目的言語文中のどの単語列に対応するのかの情報,更に,対応する目的言語文中の単語列とどのような隣接関係にある単語が対訳語の目的言語の単語となるのかの情報である.性能評価実験では,本手法に基づくシステムを用いて,原言語の異なる5種類の対訳コーパスから対訳語を自動抽出した結果,60.1%の抽出率が得られた.この結果は,Dice係数に基づくシステムの抽出率に比べ,8.0ポイント高い値であり,本手法の有効性が確認された.

PREVIOUS << >> NEXT