一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析。正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。现在做一个概要的介绍和演示。

 

动机

采集豆瓣电影数据包括电影详情页数据和电影的短评数据。

电影详情页如下图所示

需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。

 

短评页面如下图所示

需要保存的字段有短评所属的电影名称,每条评论的详细信息如评论人名称、评论内容等。

  

数据库设计

延伸阅读

学习是年轻人改变自己的最好方式-Java培训,做最负责任的教育,学习改变命运,软件学习,再就业,大学生如何就业,帮大学生找到好工作,lphotoshop培训,电脑培训,电脑维修培训,移动软件开发培训,网站设计培训,网站建设培训学习是年轻人改变自己的最好方式