复古传奇私服百科

广告

预处理机制在搜索引擎中的应用实践

2017-08-12 17:05:13 本文行家:死胡同

关于"预处理机制",可能一些站长朋友不是很有概念,预处理,顾名思义就是指系统在用户未完成命令的前提条件下而给出的建议性结果,这种方式在系统任务当中统称为预处理机制.预处理机制又分门别类很多种.下面我们着重将两点:一、中文分词 1.抓取好文字之后我们要进行中文分词,也就是我们经常提到的中文分词技术,为了方便大家更好的理解,我们举例来说,大家先打开baidu和goole,然后分别在里面搜索“夸张大

关于"预处理机制",可能一些站长朋友不是很有概念,预处理,顾名思义就是指系统在用户未完成命令的前提条件下而给出的建议性结果,这种方式在系统任务当中统称为预处理机制.预处理机制又分门别类很多种.下面我们着重将两点:

一、中文分词

   1.抓取好文字之后我们要进行中文分词,也就是我们经常提到的中文分词技术,为了方便大家更好的理解,我们举例来说,大家先打开baidu和goole,然后分别在里面搜索“夸张大千奖”,我们先看百度页面的搜索情况:

通过上图我们可以看到整个页面的标红的字体,我们可以明显的看到“张大千”这三个字被拧出来了,总共五个字,因为张大千是个人名,所以它优先被拧了出来,然后这个词就变成三个词组,分别是“夸”。“张大千”。“奖”。这是百度的分词手法,我们再来看谷歌是怎么分的:

我们看第一条搜索结果,“夸张的图,大千世界无奇不有啊”,为什么会这样呢?其实谷歌和百度相比,它少了一个专有词典,匹配方式不一样,不同的搜索引擎,它的分词规律不一样,所以说针对不同搜索引擎关键词优化,我们应该要注意关键词应该怎么写会比较稳妥。可以根据自身情况,做谷歌要怎么写,做百度又要怎么写,而且我们要知道,我们如何利用分词技术来做到不管是关键词还是内容等等都可尽量匹配。如果连内容都匹配不了,那关键词又怎么能上去呢?

2、匹配方法

关于匹配方法我们简单概括下:

A.正向匹配:因为我们一般的阅读方式是从左往右,从左到右叫正向匹配,比如说“中华人民共和国成立于1949年”因为它是一个完整词,如果是正向匹配,那么就应该这样分:“中华”“人民”“共和”等。

B.逆向匹配:顾名思义,就是从后面往前匹配。

c.最大匹配:比如说“中华人民共和国成立于1949年”,如果是最大匹配的话,可以划分成“中华人民共和国”为一个词组,这就是最大匹配。

D.最小匹配:它就可是把“中华人民共和国”划分成“中华”“人民”“”共和”“国”。这样算起来总共有四种匹配方式:正向匹配、逆向匹配、最大匹配、最小匹配。可以两两结合结合成“正向最大匹配”“正向最小匹配”“逆向最大匹配”“逆向最小匹配”,这是百度和谷歌通用的匹配方法。那说到这里,可能有人会问了:那我怎么知道它是给我正向匹配还是反向匹配等,其实我想说的是,这个没有一个定死的规律的,我们只要记住一点:一个好的搜索引擎,在分词系统关键就看两点:

A:消除歧义能力,也就是说你搜了一个词,搜索出来的结果更加精准、完整;

B:它是否能识别人名、地名和机构名,也就是一些未登陆的词,比如比较流行的口头语,搜索次数多了,它会进行一个统计,统计的结果和用户想了解的内容匹配度高,具备这两点,就是好的分词系统。

搜索引擎的分词能让我们的标题以及内容相关性更高,和需要优化的词匹配度更高,这是分词它所能承载的作用,不用的搜索引擎的分词原理不一样,所以需要我们更加系统的来学习,仅仅靠这篇文章是解释不完的,关键是要有这个思路,结合这个思路去仔细观察从而得出结论。

二、提取文字

预处理要做的第一件事情就是抓取文字,在提取文字这一部分是非常关键的,意思也很简单,因为文字一般都是有一个相关性的,就是把关键文字提取出来,提取的文字内容有文本、meta标签,这两个是我们通过表面现象可以看得到的,另外还有关键和描述(这两个需要通过页面源代码查看),还有alt属性(alt属性原本是看不到的,鼠标移上去会显示)。还有文本,比如像做过flash站优化的人知道,你可以将它的内容提取出来,作为替代内容,这些都是可以被搜索引擎识别的。

通过以上讲解,大家是不是对索引引擎机制度和中文分词是不是有了初步的了解.

本文来源于:http://www.592sf.com/  新开1.76复古传奇私服发布网站,转载请注明出处.

分享:
标签: 网站建设 SEO 搜索引擎 | 收藏
百科的文章(含所附图片)系由网友上传,如果涉嫌侵权,请与客服联系,我们将按照法律之相关规定及时进行处理。如需转载,请注明来源于www.baike.com