在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。
那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。

1. 预计可视化部分包括

  1. 人物关系可视化

  2. 人员地理分布可视化

  3. 人员大学分布可视化

  4. 男女比例可视化

  5. 用户点赞可视化

2. 预计内容和目录

  1. 开篇感言

  2. 爬虫流程设计

    1. 如何过滤重复数据

    2. 如何在爬取时创建人物关系

  3. 请求分析

    1. 登陆请求分析

    2. 跟随/关注请求分析

  4. 抓取页面数据

    1. jsoup抽取页面内容

  5. 优化

    1. 使用多线程加速

    2. 使用队列减少数据库访问

      网友评论