写采集:网络爬虫(一)
搞采集,那第一步离不开的肯定是蜘蛛,那我们必须的科普一下,何为网络蜘蛛?
网络爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
详细自己搜百度百科
那话又说回来了,其实说网络爬虫,术语好像好像很高大上,其实不外乎写一个http请求,然后到互联网去抓取感兴趣的数据。方式不外乎两种:一种是带有目的爬,然后抓取自己想要的数据,老牛写的蜘蛛基本上属于这种,这种蜘蛛也比较呆直萌。而另一种就高大尚一点,基于搜索索引分类的蜘蛛,这种爬行永无终点,对于互联网的一切数据都感兴趣。简直就是互联网的搬运工。不理有没有用,先采回来再说。基于老牛的道行和读者的接受程度,我们只能简单的举第一种的例子,基于目的的采集。
如何用C#写一个爬虫
爬虫,必须得有自己的内核,内核是啥?一个强悍的http访问组件,所幸的是微软早已帮我们准备了一个强悍的Net访问组件HttpWebRequest。有朋友会说,那不是很简单么,随便百度一下就知道怎么去写了,呃...
那我们就百度一下
