网络爬虫是什么

2022-11-22 09:07:37

1、爬虫是什么?

网络爬虫(又称网络蜘蛛、网络机器人)是根据一定规则自动捕捉万维网信息的程序和脚本。其他不常用的名字有蚂蚁、自动索引、模拟程序或蠕虫。

一般来说,我们把互联网比作大蜘蛛网,每个网站的资源比作蜘蛛网上的结点,爬虫类就像蜘蛛一样,根据设计的路线和规则在这个蜘蛛网上找到目标结点,获得资源。可以使用太阳http,专业爬虫辅助工具

2、为什么我们需要使用爬虫呢?

你可以想象一个场景:你非常崇拜一个微博名人,对他的微博非常着迷。你想摘录他十年来微博上的每一句话,制作名人语录。这个时候你怎么办?手动去Ctrl+C和Ctrl+V?这个方法的确是对的,当数据量很小的时候,我们也可以这样做,但是当数据数千的时候,你还需要这样做吗?

我们想象另一个场景:如果你想成为一个新闻聚合网站,你需要每天定期去几个新闻网站获取最新的新闻。我们称之为RSS订阅。你会定期去各个订阅网站复制新闻吗?恐怕个人很难做到这一点吧。

以上两个场景,使用爬虫技术可以很容易地解决问题。因此,我们可以看到爬虫技术主要可以帮助我们做两件事:一是数据获取需求,主要针对特定规则下的大数据量信息获取;另一种是自动化需求,主要应用于类似的信息聚合和搜索。

3、爬虫的分类:爬虫类可分为通用爬虫类和聚焦爬虫类。

通用网络爬虫又称全网爬虫(ScalableWebCrawler),爬虫对象从一些种子URL扩展到整个网络,主要从搜索引擎和大型网络服务提供商那里收集数据。这种网络爬虫的爬行范围和数量都很大,对爬行速度和存储空间的要求也很高,对爬行页面的顺序也比较低。比如我们常见的百度和谷歌搜索。当我们输入关键字时,他们会从全网找到与关键字相关的网页,并按一定的顺序呈现给我们。

聚焦网络爬虫(FocusedCrawler)是指选择性地爬取与预定义主题相关的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬取特定的网页,爬取的广度会小很多。举例来说,我们需要抓取东方财富网的基金数据,我们只需要为东方财富网的网页制定抓取规则。

一般来说,通用爬虫类似于蜘蛛,需要寻找特定的食物,但因为不知道蜘蛛网的哪个节点,所以只能从一个节点开始寻找。遇到节点就看看。有食物就得到食物。如果这个节点指示某个节点有食物,就按照指示找下一个节点。而且聚焦网络爬虫就是这只蜘蛛知道哪个节点有食物,它只需要个节点就能得到食物。

4、浏览网页的过程。

在用户浏览网页的过程中,我们可能会看到很多漂亮的图片

这个过程实际上是用户输入网站后,通过DNS服务器找到服务器主机并向服务器发送请求。服务器分析后,发送给用户的浏览器HTML、JS、CSS等文件被浏览器分析,用户可以看到各种各样的图像。

因此,用户看到的网页本质上由HTML代码构成,爬虫类爬行的是这些内容,通过分析和过滤这些HTML代码,实现了图像、文字等资源的获取。

5、URL的含义。

URL,即统一资源定位符,也就是我们所说的网站,统一资源定位符简单地表示可以从互联网获得的资源的位置和访问方法,是互联网上标准资源的地址。因特网上的每一个文件都有一个唯一的URL,它所包含的信息指出文件的位置和浏览器应该如何处理。