各大搜索引擎如何计算网站排名
时间:2012-02-22 01:57 来源:未知 作者:baul3 点击:次
经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程是与用户直接互动的。
一、搜索词处理
搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理包括如下几方面:
1.中文分词
与页面索引时一样,搜索词也必须进行中文分词,将查询字符串转换为以分词为基础的关键词组合。分词原理与页面分词相同。
2.去停止词
与索引时一样,搜索引擎也需要把搜索词中的停止词去掉,最大限度地提杭州SEO供排名相关性及效率。
3.指令处理
对用户搜索的关键词进行与运算,例如用户搜索“站长论坛”,程序分词为“站长”和“论坛”。另外用户输入的查询词还可能包含一些高级搜索指令,如加号、减号等,搜索引擎都需要作出识别和相应处理。
4.拼写错误矫正
对于用户输入的错别字或英文单词进行矫正处理
5.整合搜索触发
某些搜索词会触发整合搜索,比如明星姓名就经常触发图片和视频内容,当前的热门话题又容易触发资讯内容。哪些词触发哪些整合搜索,也需要在搜索词处理阶段计算
二、文件匹配
搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出含有所有关键词的文件。
三、初始子集的选择
找到包含所有关键词的匹配文件后,还不能进行相关性计算,因为找到的文件经常会有几十万几百万,甚至上千万。要对这么多文件实时进行相关性计算,需要的时间还是比较长的。
所以搜索引擎只需要计算前1000个结果的相关性,就能满足要求。但www.6998.net问题在于,还没有计算相关性时,搜索引擎又怎么知道哪一千个文件是最相关的?所以用于最后相关性计算的初始页面子集的选择,必须依靠其他特征而不是相关性,其中最主要的就是页面权重。由于所有匹配文件都已经具备了最基本的相关性,搜索引擎通常会用非相关性的页面特征选出一个初始子集。初始子集的数目是多少?几万个?或许更多,外人并不知道。不过可以肯定的是,当匹配页面数目巨大时,搜索引擎不会对这么多页面进行计算,而必须选出页面权重较高的一个子集,再对子集中的页面进行相关性计算。
四、相关性计算
选出初始子集后,对子集中的页面计算关键词相关性。计算相关性是排名过程中最重要的一步。相关性计算是搜索引擎算法中最令seo最感兴趣的部分。
影响相关性的主要因素包括如下几个方面,关键词常用程度,词频及密度,关键词位置及形式,关键词距离,链接分析及页面权重。
五、排名过滤及调整
选出匹配文件子集、计算相关性后,大体排名就已经确定了。之后搜索引擎可能还有一些过滤算法,对排名进行轻微调整,其www.6998.net中最主要的过滤就是施加惩罚。一些有作弊嫌疑的页面,虽然按照正常的权重和相关性计算排到前面,但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。典型的例子是百度的11位,google的负6、负30、负950等算法。
六、排名显示
所有排名确定后,排名程序调用原始页面的标题标签、说明标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的说明标签。
发布站点:意大利网站建设,米兰做网站,意大利网站优化
本文地址:http://www.huaxia.it/seo/201202224210.html
一、搜索词处理
搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理包括如下几方面:
1.中文分词
与页面索引时一样,搜索词也必须进行中文分词,将查询字符串转换为以分词为基础的关键词组合。分词原理与页面分词相同。
2.去停止词
与索引时一样,搜索引擎也需要把搜索词中的停止词去掉,最大限度地提杭州SEO供排名相关性及效率。
3.指令处理
对用户搜索的关键词进行与运算,例如用户搜索“站长论坛”,程序分词为“站长”和“论坛”。另外用户输入的查询词还可能包含一些高级搜索指令,如加号、减号等,搜索引擎都需要作出识别和相应处理。
4.拼写错误矫正
对于用户输入的错别字或英文单词进行矫正处理
5.整合搜索触发
某些搜索词会触发整合搜索,比如明星姓名就经常触发图片和视频内容,当前的热门话题又容易触发资讯内容。哪些词触发哪些整合搜索,也需要在搜索词处理阶段计算
二、文件匹配
搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出含有所有关键词的文件。
三、初始子集的选择
找到包含所有关键词的匹配文件后,还不能进行相关性计算,因为找到的文件经常会有几十万几百万,甚至上千万。要对这么多文件实时进行相关性计算,需要的时间还是比较长的。
所以搜索引擎只需要计算前1000个结果的相关性,就能满足要求。但www.6998.net问题在于,还没有计算相关性时,搜索引擎又怎么知道哪一千个文件是最相关的?所以用于最后相关性计算的初始页面子集的选择,必须依靠其他特征而不是相关性,其中最主要的就是页面权重。由于所有匹配文件都已经具备了最基本的相关性,搜索引擎通常会用非相关性的页面特征选出一个初始子集。初始子集的数目是多少?几万个?或许更多,外人并不知道。不过可以肯定的是,当匹配页面数目巨大时,搜索引擎不会对这么多页面进行计算,而必须选出页面权重较高的一个子集,再对子集中的页面进行相关性计算。
四、相关性计算
选出初始子集后,对子集中的页面计算关键词相关性。计算相关性是排名过程中最重要的一步。相关性计算是搜索引擎算法中最令seo最感兴趣的部分。
影响相关性的主要因素包括如下几个方面,关键词常用程度,词频及密度,关键词位置及形式,关键词距离,链接分析及页面权重。
五、排名过滤及调整
选出匹配文件子集、计算相关性后,大体排名就已经确定了。之后搜索引擎可能还有一些过滤算法,对排名进行轻微调整,其www.6998.net中最主要的过滤就是施加惩罚。一些有作弊嫌疑的页面,虽然按照正常的权重和相关性计算排到前面,但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。典型的例子是百度的11位,google的负6、负30、负950等算法。
六、排名显示
所有排名确定后,排名程序调用原始页面的标题标签、说明标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的说明标签。
发布站点:意大利网站建设,米兰做网站,意大利网站优化
本文地址:http://www.huaxia.it/seo/201202224210.html
- 上一篇:搜寻引擎优化三个过失的观念
- 下一篇:网站稳定才是发展的硬道理