Learning Scrapy（一）

发布时间：2016年12月16日作者：文章转自网络，版权归原作者所有，反馈可立刻删除

学习爬虫有一段时间了，从Python的Urllib、Urlllib2到scrapy，当然，scrapy的性能且效率是最高的，自己之前也看过一些资料，在此学习总结下。

Scrapy介绍

关于scrapy

　　scrapy是一个健壮的，可以从网络上抓取数据的web框架，只需要一个配置文件就能组合各种组件和配置选项。同时，scrapy是一个基于事件的架构因此我们可以级联很多操作，包括清理，组织，存储数据到数据库，导出数据等。
　　假设你现在要抓取一个网站，这个网站的每一页都有一百个条目，Scrapy可以毫不费劲地同时对这个网站发起16个请求，假如每个请求需要一秒钟来完成，就相当于每秒钟爬取16个页面，相当于每秒钟生成了1600个条目，假如要把这些条目同时存储到云上，每一个条目的存储需要3秒钟（假设的），为了处理这16个请求，就需要运行1600 *3 = 4800个并发的写入请求，对于一个传统的多线程程序来说，就需要转换成4800个线程，这会对系统造成极大的压力。而对于Scrapy来说，只要你的硬件过关， 4800个并发请求是没有问题的。

scrapy的优点

　　Scrapy已经发展了5年有多，已经变得成熟和稳定，除了上面提到的性能优点外，Scrapy还有以下几点优点：
1. Scrapy可以处理不完整的HTML

分类导航

Learning Scrapy（一）

网友评论

更多精彩分享