马上5月份有个软件专业等级考试,以下简称软考,为了更好的复习备考,我打算抓取www.rkpass.com网上的软考试题。

以上为背景。

很久没有更新博客园的博客了,所以之前的代码没有及时的贴出来,咱们就从今天开始,讲述一下我爬取软考试题的故(keng)事(shi)。现在我已经能自动抓取某一个模块的所有题目了,如下图:

Android培训,安卓培训,手机开发培训,移动开发培训,云培训培训

 目前可以将信息系统监理师的30条试题记录全部抓取下来,结果如下图所示:

Android培训,安卓培训,手机开发培训,移动开发培训,云培训培训抓取下来的内容图片:

Android培训,安卓培训,手机开发培训,移动开发培训,云培训培训

虽然可以将部分信息抓取下来,但是代码的质量并不高,以抓取信息系统监理师为例,因为目标明确,各项参数清晰,为了追求能在短时间内抓取到试卷信息,所以并没有做异常处理,昨天晚上填了很久的坑。

回到主题,今天写这篇博客,是因为又遇到新坑了。从博客标题我们可以猜出个大概,肯定是请求次数过多,所以ip被网站的反爬虫机制给封了。

Android培训,安卓培训,手机开发培训,移动开发培训,云培训培训

网友评论