分类导航

爬虫代码阅读－登陆,广度遍历与深度遍历

发布时间：2016年12月29日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

之前一直不太了解分布式爬虫设计思路，于是在github上搜了一个简易的分布式爬虫，学习了一下实现思路，并做一下对应笔记

分布式爬虫主要涉及到三个方面。

1.模拟登录；

2.master广度遍历，将待爬页push到队列（redis）；

3.slave从redis中取出待爬页，进行深度遍历

下面分三个方面分别阐述，以知乎为例。

一.模拟登录

1.首先可以自己手动登陆一次，注意登陆时post的数据以及url

这里post数据格式为：

        		延伸阅读
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁
        			2017-07-26
        			
        			
        			
        			消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 论文笔记【图片目标分割】
        			2017-07-26
        			
        			
        			
        			词向量-LRWE模型-更好地识别反义词同义词
        			2017-07-26
        			
        			
        			
        			从栈不平衡问题 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 处理 图片剪切、压缩、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift实现JSON转Model - HandyJSON使用讲解
        			2017-07-26
        			
        			
        			
        			阿里移动安全 Android端恶意锁屏勒索应用分析
        			2017-07-26
        			
        			
        			
        			集合结合数据结构来看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		学习是年轻人改变自己的最好方式

分类导航

爬虫代码阅读－登陆,广度遍历与深度遍历

一.模拟登录

延伸阅读

我想了解如何学习