之前一直不太了解分布式爬虫设计思路,于是在github上搜了一个简易的分布式爬虫,学习了一下实现思路,并做一下对应笔记

分布式爬虫主要涉及到三个方面。

1.模拟登录;

2.master广度遍历,将待爬页push到队列(redis);

3.slave从redis中取出待爬页,进行深度遍历

下面分三个方面分别阐述,以知乎为例。

一.模拟登录

1.首先可以自己手动登陆一次,注意登陆时post的数据以及url

这里post数据格式为:

Android培训,安卓培训,手机开发培训,移动开发培训,云培训培训

        		

延伸阅读

学习是年轻人改变自己的最好方式-Java培训,做最负责任的教育,学习改变命运,软件学习,再就业,大学生如何就业,帮大学生找到好工作,lphotoshop培训,电脑培训,电脑维修培训,移动软件开发培训,网站设计培训,网站建设培训学习是年轻人改变自己的最好方式