快一年没更新博客了,现在总结一下这大半年来研究、学习的知识。

这个爬虫项目是去年4、5月份做的,主要技术是BeautifulSoup、select、requests、MongoDB、highchart

首先,我们登陆赶集网可以看到二手商品信息的首页,即爬虫的起始url是:http://sh.ganji.com/wu/,分析网页结构可以看到二手商品信息分类中有:手机、手机配件、手机号码、笔记本电脑、台式机等20多个商品分类子频道,分别打开每个子频道的url,可以看到对应的二手商品列表,每个二手商品列表中的url对应一个详细页面,我们要获取的就是每个详细页面上的信息。

首先,我们定义 headers 部分,headers 包含 User-Agent、Cookie、Referer等信息,这是为了伪装成浏览器的形式,以应对反爬虫措施。

requests.get解析url:

wb_data = requests.get(url, headers=headers)

BeautifulSoup的lxml解析文本:

soup = BeautifulSoup(wb_data.text, 'lxml')

延伸阅读

学习是年轻人改变自己的最好方式-Java培训,做最负责任的教育,学习改变命运,软件学习,再就业,大学生如何就业,帮大学生找到好工作,lphotoshop培训,电脑培训,电脑维修培训,移动软件开发培训,网站设计培训,网站建设培训学习是年轻人改变自己的最好方式