1. 站点选取

现在的大网站基本除了pc端都会有移动端,所以需要先确定爬哪个。

比如爬新浪微博,有以下几个选择:

  1. www.weibo.com,主站

  2. www.weibo.cn,简化版

  3. m.weibo.cn,移动版

上面三个中,主站的微博数据是动态加载的,意味着光看源码是看不到数据的,想爬的话要么搞清楚其api访问情况,要么模拟js,那样的话花的力气可能就有点多了。weibo.cn是一个简化版,数据能直接从网页源代码中解析出来,但使用正则或xpath取网页中的元素仍然是无聊且费时的,更不用说偶尔的页面结构错误更让人抓狂。 相比之下,移动版的爬虫最好写,因为移动版能直接拿到json格式的数据。

一般来说,有移动版的网站优先爬移动版,会节省很多力气。


2. 模拟登录

现在需要登录才能正常浏览的网站的越来越多了,对爬虫也越来越不友好...所以模拟登录在不少场合都是必不可少的。

首先,最简单的模拟登录是只有用户名密码的登录。这时候只需要在发

网友评论