正在阅读:

搜索引擎原理解析

上节给大家讲了搜索引擎的三个大的阶段,下面就给大家详细的分解下:
一。爬行和抓取
爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。
1.蜘蛛
搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。搜索引擎蜘蛛访问网站页面类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发爬行。
蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件,如果tobots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。下面说下常见的搜索引擎蜘蛛名称:
百度蜘蛛 雅虎中,G蜘蛛 Google蜘蛛  微软蜘蛛 搜狗蜘蛛 搜搜蜘蛛 有道蜘蛛
2.跟踪链接
为了抓取网上的尽量多的页面,搜索引擎蜘蛛会抓取跟踪页面上的链接,从一个页面爬到下一个页面,。而整个互联网都是由相互连接的网站及页面组成的。从理论上讲蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的所有页面。当然,由于网站及页面链接结果异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。
两种爬行策略:一是深度优先二是广度优先
所谓深度优先,指的是蜘蛛沿着发现的链接一直往下爬行,知道页面没有其他的链接,然后返回第一个页面,沿着另一个链接再一直往前爬行。
所谓广度优先之指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层的页面上发现的链接爬向第三层页面。
3.吸引蜘蛛
理论上蜘蛛能爬行和抓取所有页面,但是实际上不太可能,所以要想收录更多的页面,我们就要多吸引蜘蛛来爬行。蜘蛛抓取会选择一些重要的页面,哪些页面比较重要呢?有几方面的因素:
网站和页面权重。质量高的老网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会有更多内页被收录。
页面更新速度。蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样,说明页面没有更新,蜘蛛也就没有必要经常抓取。页面经常更新的话,蜘蛛就会经常光顾。
导入链接。高质量的导入链接也经常页面上的导出链接被爬行的深度增加。
与首页的点击距离。一般来说都是首页的网站权重比较高,大部分外部链接也都是指向首页的。离首页距离越近,页面权重越高,被蜘蛛爬行的机会也越大。
4.地址库
为了避免重复爬行和抓取网址,搜索引擎都会建立一个地址库,记录已经被发现还没有抓取的页面,以及被抓取的页面。
5.文件储存
搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。每个URL都有一个独特的文件编号。
6.爬行时的复制内容检测
检测并删除重复内容通常是在下面介绍的预处理过程中进行的
今天先分享到这,明天继续分享搜索引擎原理之预处理。
以上文章由www.fdyseo.com原创,转载务必注明出处。

目前有:1条访客评论

  1. 徐小木
    徐小木:2016-01-23 03:34 回复

    谢谢您阿,我非常高兴

留下脚印,证明你来过。

*

*

流汗坏笑撇嘴大兵流泪发呆抠鼻吓到偷笑得意呲牙亲亲疑问调皮可爱白眼难过愤怒惊讶鼓掌
关闭