分类导航

网页爬虫--scrapy进阶

发布时间：2017年01月06日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

1. 站点选取

现在的大网站基本除了pc端都会有移动端，所以需要先确定爬哪个。

比如爬新浪微博，有以下几个选择：

www.weibo.com，主站
www.weibo.cn，简化版
m.weibo.cn，移动版

上面三个中，主站的微博数据是动态加载的，意味着光看源码是看不到数据的，想爬的话要么搞清楚其api访问情况，要么模拟js，那样的话花的力气可能就有点多了。weibo.cn是一个简化版，数据能直接从网页源代码中解析出来，但使用正则或xpath取网页中的元素仍然是无聊且费时的，更不用说偶尔的页面结构错误更让人抓狂。相比之下，移动版的爬虫最好写，因为移动版能直接拿到json格式的数据。

一般来说，有移动版的网站优先爬移动版，会节省很多力气。

2. 模拟登录

现在需要登录才能正常浏览的网站的越来越多了，对爬虫也越来越不友好...所以模拟登录在不少场合都是必不可少的。

首先，最简单的模拟登录是只有用户名密码的登录。这时候只需要在发

分类导航

网页爬虫--scrapy进阶

1. 站点选取

2. 模拟登录

延伸阅读

我想了解如何学习