之前一直不太了解分布式爬虫设计思路,于是在github上搜了一个简易的分布式爬虫,学习了一下实现思路,并做一下对应笔记
分布式爬虫主要涉及到三个方面。
1.模拟登录;
2.master广度遍历,将待爬页push到队列(redis);
3.slave从redis中取出待爬页,进行深度遍历
下面分三个方面分别阐述,以知乎为例。
1.首先可以自己手动登陆一次,注意登陆时post的数据以及url
这里post数据格式为:
网友评论