1. 站点选取
现在的大网站基本除了pc端都会有移动端,所以需要先确定爬哪个。
比如爬新浪微博,有以下几个选择:
www.weibo.com,主站
www.weibo.cn,简化版
m.weibo.cn,移动版
上面三个中,主站的微博数据是动态加载的,意味着光看源码是看不到数据的,想爬的话要么搞清楚其api访问情况,要么模拟js,那样的话花的力气可能就有点多了。weibo.cn是一个简化版,数据能直接从网页源代码中解析出来,但使用正则或xpath取网页中的元素仍然是无聊且费时的,更不用说偶尔的页面结构错误更让人抓狂。 相比之下,移动版的爬虫最好写,因为移动版能直接拿到json格式的数据。
一般来说,有移动版的网站优先爬移动版,会节省很多力气。
2. 模拟登录
现在需要登录才能正常浏览的网站的越来越多了,对爬虫也越来越不友好...所以模拟登录在不少场合都是必不可少的。
首先,最简单的模拟登录是只有用户名密码的登录。这时候只需要在发
