TOP活動実績2001年

(35) 帰納的学習を用いた単語分割手法の中国語への適用とその性能評価
         電子情報通信学会論文誌 D-II, Vol.J85-D-II, No.1pp.56-65,2002-1

 我々は多言語を処理できる単語分割手法の開発を目指して帰納的学習により文章を単語に分割する手法を提案している.本手法においては文章中に重複して出現する文字列の共通部分及び差異部分を再帰的に抽出し,学習する.そして,単語として確実性の高いのもから順に用いて文を単語に分割する.よって本手法では辞書,分割ルールなどをあらかじめ用意する必要がなく,入力文中に重複して出現する文字列の共通部分と差異部分を抽出することにより未知語を推測し,辞書に登録する.更に分割結果を校正した情報を用いることにより文書を単語に分割する能力が向上する.このように本手法は固有の言語に依存した知識を用いないので,多言語を処理できるという利点がある.既に,日本語に対して有効性が確認されているので,本論文では本手法の多言語への汎用性を確かめるために,中国語に対する性能評価実験を行った.実験の結果,90%以上の平均正分割率が得られ,本手法が中国語に適用できることが確認された.このことから,本手法が多言語へ適用できる可能性が示された.
PREVIOUS << >> NEXT