分类导航

爬虫-漫画喵的100行逆袭

发布时间：2017年02月20日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

原因就是这样，作为技术喵，任何问题都不能阻碍一颗爱漫画的心。所以问题就来了，挖掘机技修哪家强？

在bing上搜索Python、爬虫框架。找到大家常用的框架。

Scrapy似乎是个很不错的选择。至于相对于其他框架的优点，小喵没有细查，至少这个框架是之前听过的。但是在实现的时候发现有一些问题，scrapy不能直接抓取动态的页面。小喵需要抓取的网站的漫画都是使用Ajax生成的。需要自己分析各种数据，这个有点麻烦。

那么有没有可以渲染页面的工具呢？像浏览器一样的？有。

这里介绍两个工具：

PhantomJs，可以理解是一个浏览器。不过它没有界面，我们可以通过js的代码模拟用户的行为。这就要求了解它的api并有js基础了。

Selenium，这是个浏览器自动化测试框架。它依赖于浏览器（这个浏览器也可以是PhantomJs），通过Selenium可以模拟用户的行为。而且有Python接口，所以相对简单一些。

我们这个爬虫使用selenium + phantomjs来实现。

哟，这个爬虫软件应该有个响当当的名字。。。就叫 漫画喵 吧，英文名Cartoon Cat。

下面我们一点点的介绍这个爬虫的实现过程吧。