您的位置:新闻资讯 >文章内容
爬虫工作中所遇到反爬措施怎么办,使用代理ip来解决
来源:本站 作者:jinglingdaili 时间:2019-04-22 17:11:01

在进行爬虫工作的过程中,就是与反爬虫作斗争的过程,可以这样说,没有遇到反爬的工程师,不是好的爬虫工程师。有很多问题我们经常遇到,今天就来盘点几个常见的反爬策略。

爬虫代理ip


一、爬取某网站时,提示“由于访问频繁,需要通过验证码才能访问页面”


解决方法:网站通过用户的Cookie信息对用户进行识别与分析,所以要防止目标网站识别我们的会话信息。


在Scrapy中,我们可以在爬虫项目的setting.py文件中进行设置,将setting.py中的下面两行代码里的“COOKIES_ENABLED=False” 的注释去掉即可。


二、爬取过快也会遭到封杀,设置下载延时


部分网站通过分析我们的爬取频率对爬虫进行禁止或限制,所以我们需要控制爬取时间间隔。在Scrapy中同样是在setting.py文件中进行设置。我们可以设置随机间隔时间,这样就毫无规律,不容易被发现。


三、设置用户代理池


不管爬虫策略和反反爬虫策略做的多么的好,还是必须要用到代理IP,没有代理IP,只能玩玩泥巴,寸步难行。如何搭建代理池呢?方法有很多,最直接最省力的方法就是购买代理IP,比如精灵平台提供的短效优质代理和一手私密代理,都是不错的选择。


相关文章内容简介
在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961