High-Tech Research Center

(51) 隣接情報に基づく対訳語の自動抽出手法
　　　情報処理学会研究会報告 2004-NL-162 ,pp.49-56 ,2004-7

出現頻度に基づく類似度を用いて対訳語を自動抽出する手法では，データスパースネス
が問題となる．例えば，同じ言語の2つの単語列が常に同時に出現する場合，それらの
訳語を決定することができない．このような問題に対し，我々は，抽出対象となる対訳
語と隣接関係にある単語列の情報を自動獲得し，その情報に基づき対訳語を抽出する手
法を提案する．本手法では，原言語文における抽出対象の単語列に隣接する単語列が目
的言語文中のどの単語列に対応するのかの情報と目的言語文中のそれらの単語列とどの
ような隣接関係にある単語列が訳語となるのかの情報を獲得する．これらの情報を利用
することで，言語間の対応関係を一意に決定することができる．原言語が異なる5つの
対訳コーパスを用いた性能評価実験の結果，本手法に基づくシステムの抽出率は60.1%
となった．この値は，Dice係数に基づくシステムの抽出率に対し，8.0ポイント高く，
本手法の有効性を示している．

PREVIOUS << >> NEXT