danさんのブログで見つけたが、なんとも言いがたい。
コーパスの母体がwebサイトである事を考えるとアダルトサイトが多くを占めること、
「ちんこ」も「チョコ」も品詞では同じ扱いであることを考えると
出現頻度が高いほうがより上位に来るのだろうなと。
因みにmecabとipadicで解析すると以下の通り。
でかいチョコ
でかい 形容詞,自立,*,*,形容詞・アウオ段,基本形,でかい,デカイ,デカイ
チョコ 名詞,一般,*,*,*,*,チョコ,チョコ,チョコ
EOS
でかいチンコ
でかい 形容詞,自立,*,*,形容詞・アウオ段,基本形,でかい,デカイ,デカイ
チンコ 名詞,一般,*,*,*,*,*
EOS
同じ、一般名詞扱い。
やはり、単語のメタ情報が少ないなと。
mecabの処理内容がいまいち理解できていないので(※1)
この手のメタ情報を付加することにより、より言語情報が充実すれば
「検索エンジン空気嫁」が実現するのではないかなと夢想してみる。
まずはmecabのソースの解析かな。
※1マルコフ連鎖がまるでさっぱり。
コメントする