中介网
RSS订阅 | 匿名投稿
您的位置:首页 > 资讯首页 > 互联网资讯 > 正文

什么是蜘蛛——我说的不是八只脚的昆虫

作者:工具网 来源: 日期:2020/1/10 22:31:52 人气: 标签:
    蜘蛛在这里是一种形象的称呼,代指搜索引擎用来抓取网页的程序。网络通过超链接把所有的网站都链接在了一起,就像一张巨大的蜘蛛网,而这些数量庞大的程序蜘蛛通过访问网页,把网页HTML代码下载到数据库,经过处理,最终展示给搜索用户。
什么是蜘蛛——我说的不是八只脚的昆虫
    蜘蛛的最终目的是抓取网络上所有的网页,但这显然做不到,因为网络的数据多么庞大,而且还在以惊人的速度扩大,仅靠现在的存储技术和网速,根本做不到。所以蜘蛛会尽量把资源分配给优秀的网站和网页。
    对从事网站的工作者来说,蜘蛛的爬行就意味网站网页的收录,所以我们很有必要知道蜘蛛的工作原理,只有熟悉了蜘蛛的工作原理,了解它们的习性,才好对症下药,指导我们网站的SEO优化工作,吸引更多的蜘蛛来爬行我们的网页,吸引蜘蛛更稳定地爬行我们的网站。

每个搜索引擎开发的蜘蛛程序,都会不一样,这些是常见搜索引擎的蜘蛛:
百度蜘蛛:Baiduspider
谷歌蜘蛛:Googlebot
360蜘蛛:360Spider
SOSO蜘蛛:Sosospider
有道蜘蛛:YoudaoBot
搜狗蜘蛛:Sogou News Spider
必应蜘蛛:bingbot
头条蜘蛛:Bytespider
Alexa蜘蛛:ia_archiver

    为了满足不同网页类型,同一个搜索引擎的蜘蛛也有更细的分类。比如新闻类的网页,时效性非常重要,要是像普通网页几天或者一周,甚至一个月后才被收录,那这新闻就变旧闻,没价值了。所以为了更快收录这些新闻网页,就需要不同于普通网页的蜘蛛程序才行。这些蜘蛛程序收录的速度要快更优先于普通网页。比如百度针对新闻源开发的特殊蜘蛛——Baiduspider-news(新闻蜘蛛),此外还有Baiduspider-image(图片蜘蛛)、Baiduspider-video(视频蜘蛛)等。各个搜索引擎都有不同的蜘蛛工种。

    不过蜘蛛不是所有的网页都能爬行的,有些网页是网站不希望蜘蛛爬行的,这些都会写在网站根目录下的robots.txt文件中。搜索引擎蜘蛛会遵守协议,在访问网站前,先访问这些robots.txt文件,蜘蛛在之后的抓取工作中,就不会去抓取文件中禁止爬行的文件或目录。还有些网页是需要权限才能访问的,比如部分论坛页面需要会员才有权限阅读,蜘蛛访问网页和我们访问网页原理上说是一样的,它们遇上这种网页也会受阻。而网站又想这些网页被收录,那么就需要给蜘蛛提供权限。

    已经介绍完了蜘蛛,之后会继续分享蜘蛛的工作原理、以及如何吸引更多蜘蛛前来爬行。

读完这篇文章后,您心情如何?
0
0
0
0
0
0
0
0