您的位置:新闻资讯 >文章内容
scrapy 代理ip池结构简介
来源:精灵代理 作者:admin 时间:2021-06-24 16:05:43

  scrapy 代理ip池结构简介!互联网时代,从事爬虫工作的人非常多,经常使用爬虫的网络用户应该听过scrapy ,它是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。它最吸引人的地方在于它是一个框架,可以根据个人需求修改,这里主要介绍一下代理IP池结构,请看下面。

scrapy 代理ip池结构简介

  代理池是由四部分组成:

  ProxyGetter:

  代理获取接口每调用一次就会抓取这个网站的最新代理放入DB,可自行添加额外的代理获取接口;

  DB:

  用于存放代理IP,现在暂时只支持SSDB。如果你没有用过SSDB,安装起来也很简单;

  Schedule:

  计划任务用户定时去检测DB中的代理可用性,删除不可用的代理。同时也会主动通过ProxyGetter去获取最新代理放入DB;

  ProxyApi:

  代理池的外部接口,功能是给爬虫提供get/delete/refresh等接口,方便爬虫直接使用。

相关文章内容简介
在线咨询
大客户经理
大客户经理
13318873961

大客户经理微信

微信客服

微信客服

微信公众号

微信公众号

回到顶部