关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践。
作为硬件数码控,我选择了经常光顾的中关村在线的手机页面进行爬取,大体思路如下图所示。

平面设计培训,网页设计培训,美工培训,游戏开发,动画培训

平面设计培训,网页设计培训,美工培训,游戏开发,动画培训

 1 # coding:utf-8 2 import scrapy 3 import re 4 import os 5 import sqlite3 6 from myspider.items import SpiderItem 7  8  9 class ZolSpider(scrapy.Spider):10     name = "zol"11     # allowed_domains = ["http://detail.zol.com.cn/"]  # 用于限定爬取的服务器域名12     start_urls = [13         # 主要爬去中关村在线的手机信息页面,考虑到是演示目的就仅仅爬了首页,其实爬分页跟二级爬虫原理相同,出于节省时间目的这里就不爬了14         # 这里可以写多个入口URL15         "http://detail.zol.com.cn/cell_phone_index/subcate57_list_1.html"16     ]17     item = SpiderItem()  # 没法动态创建,索性没用上,用的meta在spider函数间传值18     # 只是test一下就用sqlite吧,比较轻量化19     #database = sqlite3.connect(":memory:")20     database_file = os.path.dirname