您的位置:新闻资讯 >文章内容
互联网50%的流量来源于爬虫,爬虫喜欢爬哪些网站?
来源:互联网 作者:admin 时间:2018-12-29 17:50:07

  都说互联网上超过50%的流量是爬虫产生的,可见爬虫的数量之多,也许你看到热门的文章中,如此高的流量,大部分都是爬虫贡献的噢。那么爬虫喜欢爬哪些网站呢?今天跟精灵代理一起去了解一下爬虫喜欢爬哪些网站,爬取这些网站的信息到底有什么用呢?


  爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。你可以简单地想象:每个爬虫都是你的“分身”。举个例子,我们每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。抢票软件,就相当于撒出去无数个分身,每一个分身都帮助不断刷新12306网站的火车余票。一旦发现有票,就马上拍下来。


  就在我们生活中的互联网上,早已密密麻麻爬满各种网络爬虫,它们善恶不一样,各怀心思。而越是每个人切身利益所在的地方,就越是爬满网络爬虫。


  爬虫也分善恶。像Google这样的搜索引擎网络爬虫,每隔几日对全网的网页扫一遍,供我们查看,每个被扫的网站大多数很高兴。这类就被定义为“善意爬虫”。可是,像抢票软件那样的网络爬虫,对着12306每秒恨不能刷几万次。


互联网50%的流量来源于爬虫,爬虫喜欢爬哪些网站?


  这张图上显示的,就是各个领域被爬“叨扰”的占比。(特别注意,这张图显示是全世界,不是全中国。)而每一个色块背后,都是一条真实而强大的利益链条。排名的是出行,出行行业中网络爬虫的占比最多(20.87%)。在出行的网络爬虫中,有89.02%的流量都是冲着12306去的。这不意外,全中国卖火车票的独此一家别无分号。你是否还记得当年12306上线王珞丹和白百何的“史上最坑图片验证码”么?


  这些东西并不是为了有意难为购票的人,而恰恰是为了防止网络爬虫(也就是说抢票软件)的点击。刚刚讲过,网络爬虫只会简单的机械点击,它不认得白百何,所以很大一部分网络爬虫就被挡在了门外。


  为什么12306这么抠呢?它大方地让爬虫随意爬会死吗?答:会死。你知道每年过年之前,12306被点成什么样了吗?公开数据是这么说的:“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。


  社交领域的爬虫高发区就是微博。它可以用来获取某个人的微博列表、微博的状态、索引等,或者利用网络爬虫操作,营造出有很多粉丝的气氛,吸引广告商来发布广告,获得金钱。


  网络爬虫最喜欢扒的还有电商。有一些“比价平台”、“返利平台”、“聚合电商”,它们都是一个原理:搜索某样商品,这些聚合平台就会自动把各个电商平台的商品都检索出来供客户选择。这就是网络爬虫的贡献。这个原理和Google差不多,只不过展示的不是网页而是商品。但是被放在一起比价,是各大电商平台所不乐意见到的。


  爬虫喜欢爬哪些网站?上文介绍了一些爬虫重灾区。由于爬虫进行大规模的爬取是需要成本的,比如花钱购买代理IP,突破访问次数的限制;如果没有价值的信息,就很多爬虫去爬取,或许就只有搜索引擎去看看了。


相关文章内容简介
在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961