写在前面

做爬虫的小伙伴一般都绕不过代理IP这个问题.

PS:如果还没遇到被封IP的场景,要不就是你量太小人家懒得理你,要不就是人家压根不在乎...

爬虫用户自己是没有能力维护一系列的代理服务器和代理IP的,这个成本实在有点高了。
所以公用代理服务器应运而生,现在几大云服务商家都提供代理IP服务,一般论个买...

同时网上也有很多代理IP共享网站,会把一些免费的代理IP放出来给大家用。
大家都是做爬虫的,那么,是不是可以先把代理IP网站的数据爬一遍?
所以可以看到不少的爬代理IP的爬虫,如突破反爬虫的利器——开源IP代理池之类的项目。
这些项目都能达到抓取代理IP数据的目的,很多时候也够用了。

然而在使用过程中我们发现了一些问题:

  1. 网站公布的代理IP不一定是可用的。可能代理服务器挂了,可能IP无效了...等等之类的。

  2. 代理IP是部分可用的。某代理IP可用代理访问百度,但是代理访问谷歌的时候就GG了。

  3. 代理连通性是好的,但是已经被访问站识别为代理IP返回验证码或者辣鸡数据。

proxyipcenter的解决方案

网友评论