1. 爬虫是什么

爬虫(Spider),这里当然不是说结网捉虫的蜘蛛那样的生物学上的爬虫,这里说的是互联网上的爬虫,由程序员编写,具有一定的逻辑性能够完成在指定范围内进行信息收集的程序。

据说爬虫占据了互联网上60%多的流量,可想而知这个无比庞大的互联网上有多少只辛辛苦苦矜矜业业的爬虫们啊。

爬虫,主要分为搜索引擎类的爬虫和具有一定目标的专用爬虫。前者索引整个web世界,让人们能方便的搜索到自己想要的信息,一般网站也很欢迎这些爬虫。而后者有时候目的性比较强,爬取范围也比较窄,一般收集数据用于二次加工或者数据分析等。这里主要讲的就是第二种爬虫。

2. 爬虫怎么工作

爬虫的工作很简单,一句话概括就是找到目标入口然后在目标页面获取目标内容。

爬虫的原理也不复杂,主要是通过http或者其他协议,发送请求到目标接口,然后解析返回的内容成结构化数据存储到本地。

延伸阅读

学习是年轻人改变自己的最好方式-Java培训,做最负责任的教育,学习改变命运,软件学习,再就业,大学生如何就业,帮大学生找到好工作,lphotoshop培训,电脑培训,电脑维修培训,移动软件开发培训,网站设计培训,网站建设培训学习是年轻人改变自己的最好方式