分类导航

Scrapy框架爬虫初探——中关村在线手机参数数据爬取

发布时间：2017年01月10日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

关于Scrapy如何安装部署的文章已经相当多了，但是网上实战的例子还不是很多，近来正好在学习该爬虫框架，就简单写了个Spider Demo来实践。
作为硬件数码控，我选择了经常光顾的中关村在线的手机页面进行爬取，大体思路如下图所示。

平面设计培训,网页设计培训,美工培训,游戏开发,动画培训

 1 # coding:utf-8 2 import scrapy 3 import re 4 import os 5 import sqlite3 6 from myspider.items import SpiderItem 7  8  9 class ZolSpider(scrapy.Spider):10     name = "zol"11     # allowed_domains = ["http://detail.zol.com.cn/"]  # 用于限定爬取的服务器域名12     start_urls = [13         # 主要爬去中关村在线的手机信息页面，考虑到是演示目的就仅仅爬了首页，其实爬分页跟二级爬虫原理相同，出于节省时间目的这里就不爬了14         # 这里可以写多个入口URL15         "http://detail.zol.com.cn/cell_phone_index/subcate57_list_1.html"16     ]17     item = SpiderItem()  # 没法动态创建，索性没用上，用的meta在spider函数间传值18     # 只是test一下就用sqlite吧，比较轻量化19     #database = sqlite3.connect(":memory:")20     database_file = os.path.dirname
        
        	
        		延伸阅读
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁
        			2017-07-26
        			
        			
        			
        			消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 论文笔记【图片目标分割】
        			2017-07-26
        			
        			
        			
        			词向量-LRWE模型-更好地识别反义词同义词
        			2017-07-26
        			
        			
        			
        			从栈不平衡问题 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 处理 图片剪切、压缩、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift实现JSON转Model - HandyJSON使用讲解
        			2017-07-26
        			
        			
        			
        			阿里移动安全 Android端恶意锁屏勒索应用分析
        			2017-07-26
        			
        			
        			
        			集合结合数据结构来看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		学习是年轻人改变自己的最好方式

分类导航

Scrapy框架爬虫初探——中关村在线手机参数数据爬取

延伸阅读

我想了解如何学习