一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析。正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。现在做一个概要的介绍和演示。

 

动机

采集豆瓣电影数据包括电影详情页数据和电影的短评数据。

电影详情页如下图所示

需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。

 

短评页面如下图所示

需要保存的字段有短评所属的电影名称,每条评论的详细信息如评论人名称、评论内容等。

  

数据库设计

网友评论