首页 > 爬虫程序到底是做什么的

爬虫程序到底是做什么的

爬虫程序到底是干吗用的?


爬虫是自动化获取网络上信息的程序

比如说你在浏览器中手动输入网页地址或者点击网页中的连接浏览网页内容获取信息

而爬虫就是自动化完成这一切的程序

当然爬虫不只是可以爬网页信息,所有一切网络上的信息都会去获取


通过程序,自动地获取指定网站的网页上的字或图片等信息。


一个页面中有许许多多的链接指向别的页面。可以把页面抽象成节点,链接抽象成指向别的节点的边,构成一个图。爬虫所做的就是从一个或多个节点出发,抓取页面内容分析出指向别的节点的边,从而进行遍历。
抓取到的页面的内容可以派许多用处,比如搜索引擎将爬虫爬取到的页面进行过滤之后,对网页的内容做分词处理,再做倒排索引。亦或是你对某个网站很感兴趣,从网站的主页开始一层层往下爬取,将抓取到的页面中感兴趣的内容进行收集等。
当然作为一个有道德的爬虫还需要遵守robots协议,因为有的页面是不希望被爬取的。
以上是我个人的理解。希望对你有帮助


https://en.m.wikipedia.org/wiki/Web_crawler


爬虫程序,是用于抓取网站资源的一种程序,对于网站上的链接不断的递归,获取链接网站上的源代码,进行分析,获取指定标签中的资源,例如抓取网站上的图片,文章等等,是一种大量获取指定信息的好工具
其实我也不知道,上面都是我胡说八道的


http://lmbtfy.retaker.me/?q=%E7%88%AC%E8%99%AB
google不放了。


这里有个现有的例子,你可以参考一下:
如何爬取大众点评网上的商家信息(有栗子、附代码)
https://www.douban.com/group/...

【热门文章】
【热门文章】