1. 上篇回顾

上篇文章Python初学者之网络爬虫中我从花椒的热门推荐页面入手,进而获取到主播个人信息和对应的直播历史视频。

首先看一下上一篇文章中对huajiao.com的主播和视频的爬取成果:

# getUserCount10179# getLiveCount111574

到目前已收集了10179个主播信息,和这些主播的111574个视频信息。这里数据量小的原因是我只收集了花椒热门推荐下面的主播,这个页面每次展示60个系统推荐的主播。

 

到目前为止我新做了如下事情:

  • 对MySql的读写操作进行了封装

  • 编码风格遵从PEP8

  • 爬取沃米优选网(http://video.51wom.com/)的主播信息

  • 爬取一下网(http://www.yixia.com/)的主播信息和视频信息

其中对MySql的封装代码单独放到了文件mysql.py下,做为一个module使用,这个module虽然简单,但已经实现了select,insert,delete等操作,对MySql封装感兴趣的同学可以参考, 但请不要用于生产环境。推荐去使用和阅读数据库类peewee。
接下来将继续讲述我在数据抓取上的开发经历。

2. 爬取的数据源和逻辑

最终目标:收集到各大直播平台的主播信息和历史播放记录,进而对数据进行聚合分析。
当前已完成:对花椒网的数据收集。
沃米优选网(http://video.51wom.com/)是一个网红数据聚合的网站,它收集了各个直播平台(花椒,熊猫,秒拍,斗鱼,映客,一直播,美拍)的热门主播信息。所以我希望能从它这里获取到各个平台的热门主播信息,之后拿着主播id去对应的直播平台去爬取更详细的信息。

3. 爬取沃米优选网的主播列表页

列表页http://video.51wom.com/截图如下: