元々言語学日本語専攻だったという事もあり、
かなり以前から形態素解析に対する違和感を感じていた。
(※アンチ生成文法論者だったという事も有るが。)
特に形態素の指定の仕方と分類の仕方が特にである。
日経BP曰く、
自然言語で書かれた文を「形態素」に分割する技術のこと。
形態素とは言語として意味を持つ最小単位を指す。
形態素に分割して,品詞を見分ける。
象徴的に取り出してみたが、要点は以下の通りである。
指定の仕方としては、「言語として意味を持つ最小単位」という指定はいいのだが、
最小の意味合いが曖昧でどうとでも取れてしまう所に疑問があった。
いくつかの疑問はあるが、一例として「都道府県」、「大中小」などをあげてみる。
mecabで解析してみると以下の通りである。
都道府県 名詞,一般,*,*,*,*,都道府県,トドウフケン,トドーフケン
EOS
大中小
大 接頭詞,名詞接続,*,*,*,*,大,ダイ,ダイ
中小 名詞,一般,*,*,*,*,中小,チュウショウ,チューショー
EOS
同じような言葉の使い方であるが複数の取られ方をしている。
この場合、形態素は「都」、「道」、「府」、「県」であるのか、
「都道府県」であるのか曖昧である。
分類の仕方に関しては、最小単位に分けた後、無条件に品詞分類をしていることである。
特に、何をもってして品詞とするのかをあまり煮詰めずに「品詞」としているところに疑問を持つ。
橋本文法の位置づけには
昔から色々と異論が有るのだがその辺りがまったく考慮されていないところに違和感を感じる。
また、単語(形態素でも良いが)のメタ情報が品詞だけというのも貧弱すぎると思っていた。
これが今まで思っていた形態素解析の違和感である。
先日、言語解析の調べ物をしていて、KOTONOHAが
面白い言語解析を用いていることを知った。
言語単位の指定方法である。
詳しくはKOTONOHAのサイトを参照してほしいが、
単語のメタ情報を格段に増やしたところにポイントがあると思う。
この、文献を見つけた時、長年の引っ掛かりがかなり解消されようやく
「形態素解析」(というのも怪しいが)が自分の中に落ちてきた。
解析辞書も公開されている。unidic
mecabに対応していないところが痛いところであるが、解析してみるのも面白いと思う。
とりあえずしばらくはこの辞書で遊んでみる。
コメントする