TOP活動実績2004年

(52) アイヌ語−日本語対訳コーパスを対象とした局所着目型学習による対訳語の自動抽出
   北海学園大学工学部研究報告 第32号 pp.41-63 ,2005-2

対訳辞書の品質向上のために対訳コーパスから対訳語を抽出することは,より自然な訳
語や新たな表現の訳語を得るために非常に有効である.しかし,これまでの対訳コーパ
スから対訳語を自動抽出する研究では,大規模な対訳コーパスが不可欠となる.様々な
言語を対象とした場合,常に大規模な対訳コーパスが得られるとは限らないため,この
問題は深刻である.我々は,この問題点を解決するために新たな手法として,局所着目
型学習を用いた対訳語の自動抽出手法を提案する.本手法は,対訳文中の局所部分を対
象に語の対応関係を決定するため探索範囲を限定できる.さらに,言語間のコロケーシ
ョンを利用することで,抽出対象の対訳語そのものの出現頻度が低い場合でも対訳語を
効率よく自動抽出することが可能である.性能評価実験では,名詞および動詞対訳語の
平均出現頻度が1.96である小規模なアイヌ語−日本語対訳コーパスを対象に名詞対訳語
と動詞対訳語の自動抽出を試みた.実験の結果,再現率として54.0%,適合率として
60.8%が得られた.この結果は,統計的手法の再現率に比べ10%以上高い値であり,本
手法の有効性を示すものである.さらに,既存の辞書には存在しない,より自然な
訳語や新たな表現の訳語の抽出も確認された.



PREVIOUS << >> NEXT