中介网
RSS订阅 | 匿名投稿
您的位置:首页 > 资讯首页 > 互联网资讯 > 正文

蜘蛛的工作原理

作者:工具网 来源: 日期:2020/1/12 19:45:22 人气: 标签:
    之前介绍了蜘蛛,它们分工明确,不同网页会有不同类型蜘蛛负责,它们甚至还有“习性”,不过对于它们的工作原理,才是很多人比较好奇的。

    蜘蛛有专门的地址库,用来存放已经被发现的URL,这里面有的是蜘蛛抓取网页时发现的URL,有的是站长后台自主提交的URL,或者站长提交的XML地图中的URL。URL收录时会被去重,蜘蛛工作时就是从这些URL出发的。
蜘蛛的工作原理
    当蜘蛛开始工作时,就会领取一个URL,摸着网线向对方爬去,蜘蛛爬行的过程就是下载网页的过程,这个和用户访问网页其实很类似。当蜘蛛爬行某个URL时,就会向该网站服务器发出访问请求,服务器响应后会返回该URL的HTML代码,蜘蛛就会把收到的HTML代码存入页面数据库。

    这些存入页面数据库的内容会被层层筛选,不符合的内容会被剔除。内容还会进行原创检测,如果一个网站有太多的抄袭内容,那么蜘蛛可能会减少爬行次数,或者停止爬行,那么这些页面以后就很难被抓取和收录。被收录的页面会经过循环筛选,最终进入索引区。这才是蜘蛛爬行的最终目的,也是页面排行展示的地方。

    很多站长都会发现,自己的网站收录和索引不相等,也有很多站长认为收录=索引。这种理解不正确,一般而言,收录是大于索引的。被收录的内容不一定会被索引,只有搜索引擎认为你的内容符合被索引的要求后,才会被纳入索引区。

    目前百度并未提供查询收录的工具,任何第三方提供的所谓收录查询都是不靠谱儿的。不过索引量是可以被查询的,大部分搜索引擎搜索:site:xxx.com,可以查询该网站被索引的数量。

    知晓了蜘蛛的工作原理,对我们网站的SEO工作会有很大帮助。

读完这篇文章后,您心情如何?
0
0
0
0
0
0
0
0
下一篇:没有资料