分类导航

老蜗牛写采集：网络爬虫（一）

发布时间：2016年11月02日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

写采集：网络爬虫（一）

搞采集，那第一步离不开的肯定是蜘蛛，那我们必须的科普一下，何为网络蜘蛛？

网络爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

详细自己搜百度百科

那话又说回来了，其实说网络爬虫，术语好像好像很高大上，其实不外乎写一个http请求，然后到互联网去抓取感兴趣的数据。方式不外乎两种：一种是带有目的爬，然后抓取自己想要的数据，老牛写的蜘蛛基本上属于这种，这种蜘蛛也比较呆直萌。而另一种就高大尚一点，基于搜索索引分类的蜘蛛，这种爬行永无终点，对于互联网的一切数据都感兴趣。简直就是互联网的搬运工。不理有没有用，先采回来再说。基于老牛的道行和读者的接受程度，我们只能简单的举第一种的例子，基于目的的采集。

如何用C#写一个爬虫

爬虫，必须得有自己的内核，内核是啥？一个强悍的http访问组件，所幸的是微软早已帮我们准备了一个强悍的Net访问组件HttpWebRequest。有朋友会说，那不是很简单么，随便百度一下就知道怎么去写了，呃...

那我们就百度一下

我想了解如何学习

姓名：

手机：

留言：