【实战】动态网页的爬取方法-精灵代理

您的位置：新闻资讯 >文章内容

【实战】动态网页的爬取方法

来源：神精兵院院长黑猫院长作者：admin 时间：2018-12-27 17:55:42

页面有静态于动态之分，相对而言，想要爬取动态网页，难度会大一些。很多网站为了减少大量的爬虫爬取数据，就会采用动态网页。动态的页面，会让爬虫无法直接的爬取到数据，比如，网页的数据采用异步加载的，比如ajax加载的数据，在我们“查看网页源代码”是查看不到的。但也有方法爬取的，今天跟精灵代理去了解一下动态网页的爬取方法。

一、动态网页的使用场景

比如上网站看一本书。我们发现打开一本书之后，书的价格，排名等信息及书的评论信息不是在我们第一次打开网站时就立即加载进来的。而是通过二次请求或多次的异步请求获取的。这样的页面就是动态页面。

关于动态页面使用的场景：

希望异步刷新的场景。有些网页内容很多，一次加载完对服务器压力很大，而且有的用户不会去查看所有内容；

二、回到与HTTP服务器发送请求数据的原始方法

1.GET方法

GET把参数数据队列添加到URL中，Key和Value的各个字段一一对应；在URL中可以看到。

1.https://www.baidu.com/s?wd=DNS

?xxx=yyy&time=zzz get 请求的标识

2.http://acb.com/login?name=zhangsan&password=123

示例代码：SpiderCodes\baiduSearchp2.py

2.POST方法

通过一个例子来看POST方法的使用：

动态网页的爬取方法

这是有道翻译的页面，仔细观察会发现，当用户每次输入一个想要翻译的词语时，页面的URL信息并不发生任何改变。这是一个典型的异步使用Ajax的技术，用JSON格式进行数据的传递。

我们如何利用爬虫程序来实现一个自己的翻译器呢？

来看代码示例：SpiderCodes\youdaofanyip2.py

三、更加难以对付的动态网站

1.应对需要多次数据的交互模拟的网站

我们有时会遇到像淘宝这样的大型网站，对数据版权看得特别重的，它们的网站有大量的工程师和技术人员去维护，它们也可能在技术手段上采用多次交互数据包的方式来完成网站服务器与用户浏览器之间的交互。如果此时还采用传统的分析数据包的方式会比较的复杂，难度较高。那么，有没有一劳永逸的方法，来解决此类问题呢？

我们的解决方案是：Selenium + PhantomJS。

2.Selenium

一个Web自动化测试工具，最初是为了网站自动化测试而开发的；我们玩游戏有按键精灵；Selenium也可以做类似的事情，但是它是在浏览器中做这样的事情。

安装： sudo pip install selenium(pip install selenium)

在Python中 from selenium import webdriver 来测试是否装好

说明：想要用Python做自动化测试的童鞋们可以好好研究一下Selenium的使用。

3.PhantomJS

一个基于webkit无界面(headless)的浏览器,它可以把网站加载到内存中并执行页面上的JS，但它没有图形用户界面，所以耗费的资源比较少；

安装：sudo apt install phantomjs （此方法可能安装不完整,导致部分功能无法使用）

Linux Ubuntu下完全安装的方法：

Wget http://phantomjs.org/download.html

cd 下载

tar -xvf phantomjs-2.1.1-linux-x86_64.tar.bz2

cd phantomjs-2.1.1-linux-x86_64/

cd bin/

sudo cp phantomjs /usr/bin

python -启动-> 浏览器进程phantomjs，

测试：

SpiderCodes\Phantomjs\.. 对其中的例子helloworld.js， pageload.js

进行测试；

注意： ****有可能造成资源泄漏；为了避免这种事的发生，需要有个策略适当的时候去kill phantomjs进程。

4.Selenium + PhantomJS

双剑合璧利用二者同时完成某个任务，示例代码如下：

SpiderCodes\testPhantomJS.py

总的来说，我们的爬虫要尽量模拟的看起来就像是真正的用户在浏览器上访问服务器网站的行为。如果我们使用GET或POST的方式来模拟浏览器与服务器间通信的行为，成本比较低，但是应对复杂的网站或者服务器精心防御的网站来说是很难骗过服务器的。Selenim+PhantomJS的方案则会让我们的程序看起来更像是普通的用户，但是它的效率相对而言会降低很多，速度也会慢很多。在大规模爬去数据时可能遇到许多新的挑战。

相关文章内容简介

多IP自由切换，不限量IP代理套餐

精灵代理-已在国内200+城市地区设置节点，可以给大家更广泛的选择空间。In today's digital age, having the ability to switch between multiple IP addresses is essential for many individuals and businesses. Whether you are looking to bypass geo-restrictions, enhance your online security, or simply maintain anonymity while browsing the internet, having access to a reliable and unlimited IP proxy service is crucial.With the rise of online censorship and surveillance, being able to switch between multiple IP address...[阅读全文]

`最佳代理服务器网站推荐`重要性何在?

精灵代理-代理IP均为高匿名IP，代理服务器不会转发原始请求的IP，也不会添加额外的代理ip特征头，ip高匿名。最佳代理服务器网站推荐重要性何在?在如今信息爆炸的时代，网络安全问题愈发凸显。随着网络攻击的不断增多，保护个人隐私和数据安全成为重中之重。而代理服务器则成为一种有效的网络安全工具，可以帮助用户隐藏IP地址、加密数据传输、浏览被封锁的网站等。然而，选择一个可信赖且高效的代理服务器网站也成为了一项挑战。这就为我们带来了一个重要问题：最佳代理服务器网站推荐的重要性何在？首先，最佳代理服务器网站推荐能够保障用户的隐私和安全。在互联网上，有许多不法分子利用用户的个人信息进行网络攻击或者盗取用户的隐私数据。通过使用代理服务器，用户可以隐藏自己的真实IP地址，避免被不法分子跟踪或监视，从而保护个人隐私。而选择一个可信赖的代理服务器网站，可以确保用户的数据传输受到加密保护，有效防止信息泄露和被窃取的风险。其次，最佳代理服务器网站推荐还能帮助用户突破地域限制，访问被封锁的网站。在一些国家或地区，政府或者互联网服务提供商会对一些特定网站进行封锁，导致用户无...[阅读全文]

商务合作HOT