什么是搜索引擎中文分词技术原理

什么是搜索引擎中文分词技术原理

>很多从事seo优化的朋友都对搜索引擎分词感兴趣,因为如果了解中文分词的原理,掌握一定的搜索引擎分词技术,对网站上seo优化的长尾关键词的布局会很有帮助。今天,石家庄搜索引擎优化博客将与朋友们谈论什么是中文分词技术。

搜索引擎分词技术是中文搜索引擎特有的关键词技术支撑。中文关键词和英文关键词的区别在于英文单词之间用空格隔开,而中文没有空格键。因此,搜索引擎必须将一个完整的句子分为小单位关键词和长尾关键词。比如石家庄seo博客这个词可以分为石家庄,石家庄seo,seo博客等。因此,分词技术的效率将直接影响整个搜索引擎系统的搜索结果显示效率。

一般来说,分词有两种方法,一种是基于字符串匹配的,另一种是基于统计的。

1.基于字符串匹配的分词方法根据匹配方向的不同分为正向匹配、反向匹配和最小分词。同时,这三种分词方法可以一起使用,也就是说,可以通过正向最大匹配、反向最大匹配、正向最小匹配和反向最小匹配进行分词。

a、正最大匹配分词原则:假设词典中最长的字数为m,首先根据中文标点符号和特征词将中文句子分成若干个短语,然后取该短语的前m个词,搜索该词在词库中是否存在,如果存在,则从短语中去除该词;如果不存在,则去掉这m个单词的最后一个单词,然后检查剩下的单词是否是单字,如果是,则输出这个单词并从短语中去掉,如果不是,则继续判断这个单词是否存在于单词库中。这样,重复检测,直到输出一个单词,然后取出剩余短语的前m个单词并重复,从而可以将一个短语分成单词组合。

这个可能很多朋友都不太理解,下面就用一个例子来说明一下。以“我是好人”为例。假设字典中最长的单词为三个,正向最大匹配顺序为:a .取出短语“我是一个”,检查字典中是否存在“我是一个”或单个单词,处理方法是去掉最后一个单词“一个”;b .检查“我是”这个短语是存在于词典中还是单个单词。处理方法是去掉“是”字;c、检查单词“我”在字典中是否存在或者是单个单词,因为“我”是单个单词,所以输出单词“我”;d .然后继续取“是一”这个词,检查“是一”是词典中存在的还是单个词。处理方法是去掉最后一个字“哥”;通过这样的反复检查,最终输出的结果是我,对,一,好人。

b反向最大匹配分词原理:分词的方法是从句尾开始,反向最大匹配分词技术最大的作用是消歧。比如“一个培训线下聚会在一个城市举行”的分词结果肯定是一定的,培训,线下,聚会,现在,城市,很不理想。使用反向最大匹配分词技术可以更大程度上满足句子的本意。比如一个分词节点大小设为6,很明显“hold”会被分割成“hold in a city”,剩下的就是“meet in a city”。

一般来说,正向最小匹配和反向最小匹配很少使用。事实上,反向匹配的精度高于正向匹配。

2.基于统计分词技术的原理

直接调用分词词典中的一些词进行匹配,利用统计技术对一些新词进行识别,使所有的统计结果进行匹配,充分发挥分词的最高效率。

分词词典是搜索引擎判断单词的依据,基本包含了汉语词典中所有的单词。如果我们在搜索引擎中输入“我想减肥”,那么“减肥”这个词就会被判断为一个词。现在网络上经常出现新造的流行语,比如“神马”“犀利哥”“浮云”等等。这样的词肯定会被搜索引擎慢慢收录,加入分词词典,这也是为了满足用户需求而不断更新分词词典的结果。

原文链接:http://www.sjzseo.net/1445.html,转载请注明出处。

0

评论0

没有账号?注册  忘记密码?