之前一直不太了解分布式爬虫设计思路,于是在github上搜了一个简易的分布式爬虫,学习了一下实现思路,并做一下对应笔记

分布式爬虫主要涉及到三个方面。

1.模拟登录;

2.master广度遍历,将待爬页push到队列(redis);

3.slave从redis中取出待爬页,进行深度遍历

下面分三个方面分别阐述,以知乎为例。

一.模拟登录

1.首先可以自己手动登陆一次,注意登陆时post的数据以及url

这里post数据格式为:

Android培训,安卓培训,手机开发培训,移动开发培训,云培训培训

        		

网友评论