一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析。正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。现在做一个概要的介绍和演示。
动机
采集豆瓣电影数据包括电影详情页数据和电影的短评数据。
电影详情页如下图所示
需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。
短评页面如下图所示
需要保存的字段有短评所属的电影名称,每条评论的详细信息如评论人名称、评论内容等。
数据库设计
一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析。正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。现在做一个概要的介绍和演示。
动机
采集豆瓣电影数据包括电影详情页数据和电影的短评数据。
电影详情页如下图所示
需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。
短评页面如下图所示
需要保存的字段有短评所属的电影名称,每条评论的详细信息如评论人名称、评论内容等。
数据库设计