分类导航

赶集网二手商品信息爬取

发布时间：2017年02月04日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

快一年没更新博客了，现在总结一下这大半年来研究、学习的知识。

这个爬虫项目是去年4、5月份做的，主要技术是BeautifulSoup、select、requests、MongoDB、highchart

首先，我们登陆赶集网可以看到二手商品信息的首页，即爬虫的起始url是：http://sh.ganji.com/wu/，分析网页结构可以看到二手商品信息分类中有：手机、手机配件、手机号码、笔记本电脑、台式机等20多个商品分类子频道，分别打开每个子频道的url，可以看到对应的二手商品列表，每个二手商品列表中的url对应一个详细页面，我们要获取的就是每个详细页面上的信息。

首先，我们定义 headers 部分，headers 包含 User-Agent、Cookie、Referer等信息，这是为了伪装成浏览器的形式，以应对反爬虫措施。

requests.get解析url：

wb_data = requests.get(url, headers=headers)

BeautifulSoup的lxml解析文本：

soup = BeautifulSoup(wb_data.text, 'lxml')

分类导航

赶集网二手商品信息爬取

延伸阅读

我想了解如何学习