現行の形態素解析の限界かなと

| コメント(0) | トラックバック(0)

danさんのブログで見つけたが、なんとも言いがたい。

コーパスの母体がwebサイトである事を考えるとアダルトサイトが多くを占めること、
「ちんこ」も「チョコ」も品詞では同じ扱いであることを考えると
出現頻度が高いほうがより上位に来るのだろうなと。

因みにmecabとipadicで解析すると以下の通り。

でかいチョコ
でかい 形容詞,自立,*,*,形容詞・アウオ段,基本形,でかい,デカイ,デカイ
チョコ 名詞,一般,*,*,*,*,チョコ,チョコ,チョコ
EOS
でかいチンコ
でかい 形容詞,自立,*,*,形容詞・アウオ段,基本形,でかい,デカイ,デカイ
チンコ 名詞,一般,*,*,*,*,*
EOS

同じ、一般名詞扱い。

やはり、単語のメタ情報が少ないなと。

mecabの処理内容がいまいち理解できていないので(※1)
この手のメタ情報を付加することにより、より言語情報が充実すれば
「検索エンジン空気嫁」が実現するのではないかなと夢想してみる。

まずはmecabのソースの解析かな。

※1マルコフ連鎖がまるでさっぱり。

トラックバック(0)

トラックバックURL: http://www.intheforest.jp/mtadmin/mt-tb.cgi/14

コメントする

ウェブページ