IT网络文摘的软件学习笔记

学习就是力量

分类导航

从零实现一个高性能网络爬虫（二）应对反爬虫之前端数据混淆

发布时间：2017年05月20日作者：IT网络文摘

摘要

上一篇以知乎网为例简单分享网络请求分析。这一篇主要分享一种应对反爬虫的方法，前端数据混淆。

目的

之前写https://github.com/wycm/zhihu-crawler项目的时候，需要用到免费的http代理，然后找到了这个 http://www.goubanjia.com/ 这个网站。现在需要把这个网站上的ip和port爬取下来，有兴趣的朋友也可以尝试自己爬取一下。

开始

打开这个网站首页，然后控制台查看ip和port的对应标签。
如上图（图一），从控制台的标签中可以看出ip加了一些无关不显示的标签来混淆数据，这里混淆的原理其实很简单，通过标签的style="display:none"属性来达到混淆的目的，也就是包含这个属性的标签是不会显示在页面上的。知道了这一点就比较好处理了，只需要在解析的时候把包含style="display:none"属性的标签去掉。就可以轻松的拿到ip和port数据了。
代码如下

网友评论

更多精彩分享

学习是年轻人改变自己的最好方式-Java培训机构,青岛Java培训,青岛计算机培训,软件编程培训,seo优化培训,网络推广培训,网络营销培训,SEM培训,网络优化,在线营销培训,Java培训

学习是年轻人改变自己的最好方式