分类导航

Java豆瓣电影爬虫——减少与数据库交互实现批量插入

发布时间：2017年05月12日作者： IT网络文摘 (该文来自笔记，点击查看原文)

节前一个误操作把mysql中record表和movie表都清空了，显然我是没有做什么mysql备份的。所以，索性我把所有的表数据都清空的，一夜回到解放前……

　　在上一个版本中，record表存储了7万多条记录，爬取的有4万多条，但是可以明显的发现爬取的数据量越多的时候，机子就越卡。又一次报错，是有关JDBC的，还有一次机子跑卡死了。

　　仔细一琢磨，上个版本的爬虫程序与数据库的读写次数太频繁，存在以下问题：

　　　　1.程序运行，从种子地址开始，对于每次爬取的网站地址先查询数据库是否存在该条记录，如果不存在，则立即插入；

　　　　2.当前网站地址爬取完毕后，查找数据库从中取出第一个crawled为0的记录进行爬取，每次只取一条；

　　　　3.存储电影详情页记录以及短评数据都是采用解析一条则立即存储到数据库。

　　显然，上面的这种方式是一目了然的效率低下，所以今天下午对相关代码进行改造，部分实现了批量插入，尽可能减少与数据库的交互，从而降低时空成本。