中介网
RSS订阅 | 匿名投稿
您的位置:首页 > 资讯首页 > 互联网资讯 > 正文

蜘蛛的工作策略

作者:工具网 来源: 日期:2020/1/15 18:41:03 人气: 标签:
    之前对蜘蛛的介绍工作原理讲诉让我们对蜘蛛已经较为熟悉了,但蜘蛛在日常工作时也是讲究策略的,好的策略才能让蜘蛛的工作效率事半功倍。    
    蜘蛛的工作策略
    蜘蛛的爬行策略:

    1、最佳优先
    这种策略依靠蜘蛛程序的网页分析算法,当经过分析判断目标URL与当前网页的相似度,或与主题的相关性等之后,会排名选取前几个进行抓取。即蜘蛛会通过算法判断目标网页,好的才会抓取,其他的则被忽略。

    2、深度优先
    为了更好说明,假设每个页面都有3个链接。蜘蛛在页面A抓取完内容后,会找出A上所有的第二层链接:B1、B2、B3。蜘蛛再顺着B1链接去爬行B1,等抓完B1,又找出B1上的全部链接:C1、C2、C3,再顺着C1去爬行。但这样可能会陷入一个循环当中,比如当C1如果就是A时。所以蜘蛛会限定爬行的层数,这个层数和网站权重有关。当一个网站限制4层时,蜘蛛爬完D1,就不会继续往下爬了,它会开始爬D2和D3。D3爬完,那么C1下的所有链接就全部爬完了。蜘蛛就开始爬C2,以及C2下的D4、D5、D6。

    3、广度优先
    如果说深度优先是纵向,那么广度优先就是横向了。蜘蛛爬完A,就开始爬B1、B1、B3,直到第二层B页面全部爬完。然后开始爬C1-C9,直到第三层C全部爬完,又开始爬第四层D1-D27。广度优先就是蜘蛛只有在一层全部爬完后,才会爬下一层。

    深度优先和广度优先通常是混合使用的,这样既可以照顾到尽量多的网站,也能照顾到一部分网站的内页。


    蜘蛛信息收集策略:

    搜索引擎希望它的内容库数量越多越好,内容越优质越好。但之前说过硬件和网速都不允许搜索引擎抓遍所有的网页,这就使得搜索引擎要有取舍。因此蜘蛛的工作策略有这两种:

    1、累积式抓取,指蜘蛛尽可能去抓取更多的页面,只有这样内容的数量才会不断积累扩大。
    2、更新式抓取,网页的内容并不会一层不变,在蜘蛛抓到的内容库里,随着时间一长,过期的页面就增多了,有必要派蜘蛛再次抓取,更新数据。

    搜索引擎的硬件和宽带都是有限的,蜘蛛如果太注重积累式抓取,那么用户搜出来的过时页面就非常多,不够新鲜。反之,过于注重更新式抓取,内容固然新鲜了,但量却跟不上了。所以蜘蛛的劳动力资源需要合理分配,双方面兼顾。
读完这篇文章后,您心情如何?
0
0
0
0
0
0
0
0
下一篇:没有资料