写采集:网络爬虫(一)

搞采集,那第一步离不开的肯定是蜘蛛,那我们必须的科普一下,何为网络蜘蛛?

网络爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

详细自己搜百度百科

 

那话又说回来了,其实说网络爬虫,术语好像好像很高大上,其实不外乎写一个http请求,然后到互联网去抓取感兴趣的数据。方式不外乎两种:一种是带有目的爬,然后抓取自己想要的数据,老牛写的蜘蛛基本上属于这种,这种蜘蛛也比较呆直萌。而另一种就高大尚一点,基于搜索索引分类的蜘蛛,这种爬行永无终点,对于互联网的一切数据都感兴趣。简直就是互联网的搬运工。不理有没有用,先采回来再说。基于老牛的道行和读者的接受程度,我们只能简单的举第一种的例子,基于目的的采集。

 

如何用C#写一个爬虫

爬虫,必须得有自己的内核,内核是啥?一个强悍的http访问组件,所幸的是微软早已帮我们准备了一个强悍的Net访问组件HttpWebRequest。有朋友会说,那不是很简单么,随便百度一下就知道怎么去写了,呃...

那我们就百度一下

延伸阅读

学习是年轻人改变自己的最好方式-Java培训,做最负责任的教育,学习改变命运,软件学习,再就业,大学生如何就业,帮大学生找到好工作,lphotoshop培训,电脑培训,电脑维修培训,移动软件开发培训,网站设计培训,网站建设培训学习是年轻人改变自己的最好方式

我想了解如何学习

姓名:
手机:
留言: