google中文分词的一点研究
我一向有分析用户是那个词来的习惯,所以自己写的程序也特别注意了一下这方面的要求,这两天发布了几篇文章,对google的中文分有点收获,所以分享一下,欢迎讨论。
首先是第一篇文章 我对ericbin1VS丘仕达的看法

从搜索结果来看,google分词为 ericbin1VS 丘仕达 两个词 可以看到google对新词是看做一个整体,所以出现了这样的分词,通过url结果来看google是根据拼音来进行中文的纠错的,因为我这篇文章的url中只有ericbin1VS被加亮了,而qiushida的拼音却没有,这说明,google认为qiushida和ericbin1VS是2个词。
另外一篇就是 博客的人肉群建的简单的方法
截图一张,可以证明上面的说法,google和百度一样,是通过拼音来进行中文的纠错。不过这张截图还说明了一个问题,就是搜索引擎会根据用户搜索量的多少来判断这个词是否作为推荐。

出现这样的推荐词,只能说明google中国的人太不负责任了。这种不符合中国法律的词是不应该出现的。
北京SEO 版权所有。转载时必须以链接形式注明作者和原始出处及本声明。

