关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践。
作为硬件数码控,我选择了经常光顾的中关村在线的手机页面进行爬取,大体思路如下图所示。


1 # coding:utf-8 2 import scrapy 3 import re 4 import os 5 import sqlite3 6 from myspider.items import SpiderItem 7 8 9 class ZolSpider(scrapy.Spider):10 name = "zol"11 # allowed_domains = ["http://detail.zol.com.cn/"] # 用于限定爬取的服务器域名12 start_urls = [13 # 主要爬去中关村在线的手机信息页面,考虑到是演示目的就仅仅爬了首页,其实爬分页跟二级爬虫原理相同,出于节省时间目的这里就不爬了14 # 这里可以写多个入口URL15 "http://detail.zol.com.cn/cell_phone_index/subcate57_list_1.html"16 ]17 item = SpiderItem() # 没法动态创建,索性没用上,用的meta在spider函数间传值18 # 只是test一下就用sqlite吧,比较轻量化19 #database = sqlite3.connect(":memory:")20 database_file = os.path.dirname