您的位置:新闻资讯 >文章内容
Python如何通过免费代理搭建自己的IP池?
来源:本站 作者:admin 时间:2019-05-11 16:27:53

Python程序员有绝大多数都是从写爬虫开始的。在接触爬虫一段时间大家通常会遇到一个相同的问题----IP不够用了!大多数网站为了防止爬虫拖库,防止DDos攻击会对单IP的访问做频率做出限制,甚至会将大量访问的IP列入黑名单,影响我们爬虫的持续稳定进行。

 

目前市面上有很多免费的代理平台,百度搜索“免费代理IP”等关键词就能找到。


 免费代理平台

 

我们搭建自己的代理IP池的原理很简单,就是定时爬取这些网站的代理IP资源,并进行质量检查,剔除掉质量较差的代理IP。

 

我相信问这个问题的同学已经对python爬虫有了很多了解,爬取这样的网站肯定不在话下。然而已经有很多开源的项目可以供大家直接来用了。

 

今天隆重推荐的是IPProxyPool项目,


 IPProxyPool项目

 


使用它,你可以在半小时内拥有属于你自己的代理IP池,这些IP实时更新,并且保证质量。

 

安装数据库


首先需要安装数据库,IPProxyPool支持Mysql和MongoDB两种形式的数据存储。

 

mysql配置如下:

 

 mysql配置

 

MongoDB配置如下:

 MongoDB配置

 

 

安装所需模块


1.安装sqlite数据库(一般系统内置): apt-get install sqlite3

 

2.安装requests,chardet,web.py,gevent psutil: pip install requests chardet web.py sqlalchemy gevent psutil

 

3.安装lxml: apt-get install python-lxml

 

使用


1. 下载项目源码,git clone ……

 

2. 启动程序python IPProxy

 

到此你自己的IP资源池已搭建完毕了,是不是很简单呢。

 

项目通过HTTP提供服务,默认服务端口地址为8000

 

我们可以使用下面的方式查询代理IP资源啦!

 

 查询代理IP资源

 

由于免费的代理IP都不太稳定,想稳定的话可以通过智游代理网站购买付费的,IP稳定可用率高达95%,更加适合各种爬虫项目。

相关文章内容简介