您的位置:新闻资讯 >文章内容
爬虫与反爬虫之间的激烈战争
来源:本站 作者:admin 时间:2019-05-08 14:42:58

什么是网络爬虫?批量自动的获取网站上的信息的程序;什么是反爬虫?阻止爬虫程序获取网站信息的方法策略。


为什么要反爬虫?一是不想自己的劳动成果被人窃取,二是有些粗暴的爬虫程序会让网站服务器压力山大或者直接崩溃。


爬虫与反爬虫之间的激烈战争


于是,爬虫与反爬虫之间一场艰苦卓绝的持久战开始了!


1、爬虫工程师在网络上发现一个比较有趣的网站,对它非常感兴趣,于是分析网络请求,花了点时间写了个爬虫,美滋滋的去爬取数据了;网站管理员通过监控突然发现这个时间段,网站的访问量暴涨,难道是要火了?不看不知道,一看吓一跳,全都是相同的IP,相同的User-Agent,这是被爬虫瞄上了啊,封IP。


2、爬虫工程师突然发现爬不动了,咋回事,难道是被发现了,于是换个IP去爬,有效果,再换个User-Agent,效果倍棒;网站管理员心想封了爬虫IP就可以高枕无忧了吧,不料一会儿又发现大量的访问IP,千篇一律的请求,无疑是爬虫,咋办,要求登陆后才能访问。


3、爬虫工程师爬着爬着突然发现又爬不动了,根据提示,注册账号,每次请求都带上cookie或者token,心想这下你还能怎么办;网站管理员显然不会就这样放弃,健全账号体系,比如只能访问好友信息。


4、爬虫工程师发扬百折不挠的精神,再次注册多个账号,联合爬取;网管也杠上了,限制访问频率,一个IP只能访问10个页面,访问一个页面小于3秒,限制IP访问。


5、爬虫工程师斗志昂扬,模仿用户正常请求,调整请求速度,去精灵代理购买大量代理IP来使用;网管增加验证码;爬虫工程师通过各种手段识别验证码,网管增加动态网站,数据通过js动态加载等,爬虫工程师通过selenium和phantomjs完全模拟浏览器操作……最后,网管觉得成本太高了,不得不放弃了。


相关文章内容简介
在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961