google中文分词的一点研究

来源:ZergTant 发布于:3/23/2008 12:56:00 PM

我一向有分析用户是那个词来的习惯,所以自己写的程序也特别注意了一下这方面的要求,这两天发布了几篇文章,对google的中文分有点收获,所以分享一下,欢迎讨论。

首先是第一篇文章 我对ericbin1VS丘仕达的看法

 ericbin1VS丘仕达

从搜索结果来看,google分词为 ericbin1VS 丘仕达 两个词 可以看到google对新词是看做一个整体,所以出现了这样的分词,通过url结果来看google是根据拼音来进行中文的纠错的,因为我这篇文章的url中只有ericbin1VS被加亮了,而qiushida的拼音却没有,这说明,google认为qiushida和ericbin1VS是2个词。

另外一篇就是 博客的人肉群建的简单的方法

截图一张,可以证明上面的说法,google和百度一样,是通过拼音来进行中文的纠错。不过这张截图还说明了一个问题,就是搜索引擎会根据用户搜索量的多少来判断这个词是否作为推荐。

很黄很暴力的推荐词

出现这样的推荐词,只能说明google中国的人太不负责任了。这种不符合中国法律的词是不应该出现的。

收藏本页到: