一个scrapy模拟登录的方法-精灵代理

您的位置：新闻资讯 >文章内容

一个scrapy模拟登录的方法

来源：互联网作者：admin 时间：2019-01-22 17:40:26

我们在使用爬虫进行信息的获取时，容易遇到网站的反爬虫机制，比如很多网站都需要先登陆，才能获取到信息的，这该怎么办呢？我们上哪里去找那么账号使用？一直不断的登陆账户，太麻烦了，还容易被限制住，或者出现验证码验证的问题。下面我们介绍一个好用方法，即用scrapy模拟登录。

一、快速登录方法

我们在这里做了一个简单的介绍，我们都知道scrapy的基本请求流程是start_request方法遍历start_urls列表，然后make_requests_from_url方法，里面执行Request方法，请求start_urls里面的地址，但是这里我们用的不再是GET方法，而用的是POST方法，也就常说的登录。

1、首先我们改写start_reqeusts方法，直接GET登录页面的HTML信息（有些人说你不是POST登录么，干嘛还GET，别着急，你得先GET到登录页面的登录信息，才知道登录的账户、密码等怎么提交，往哪里提交）

2、start_request方法GET到数据后，用callback参数，执行拿到response后要接下来执行哪个方法，然后在login方法里面写入登录用户名和密码（还是老样子，一定要用dict），然后只用Request子类scrapy.FormRequest这个方法提交数据，这我一个的是FormRequest.from_response方m_法。

有些人会问，这个from__response的基本使用是条用是需要传入一个response对象作为第一个参数，这个方法会从页面中form表单中，帮助用户创建FormRequest对象，最最最最重要的是它会帮你把隐藏的input标签中的信息自动跳入表达，使用这个中方法，我们直接写用户名和密码即可，我们在最后面再介绍传统方法。

3、parse_login方法是提交完表单后callback回调函数指定要执行的方法，为了验证是否成功。这里我们直接在response中搜索Welcome Liu这个字眼就证明登录成功。这个好理解，重点是yield from super().start_resquests()，这个代表着如果一旦登录成功后，就直接带着登录成功后Cookie值，方法start_urls里面的地址。这样的话登录成功后的response可以直接在parse里面写。

一个scrapy模拟登录的方法

有的同学可能问了，login方法里面不是应该写reture 么，其实上面的写法跟下面的这种写法是一样效果，如果再有个CSRF的话，也可以直接在login里面写拿到CSRF信息，写入到formdata里面跟用户名和密码一起提交。

1 return [FormRequest.from_response(response,formdata=formdata,callback=self.parse_login)]

登录成功

一个scrapy模拟登录的方法

二、传统登录方法

1、首先要明确一件事情，一般情况下需要登录的网站，不只需要登录用户和密码，接下来我们聊聊上面说的传统登录模式。用户在登录的时候并不是只需要登录账户信息，除了常见直观的验证码和CSRF信息外，也有可能需要提交其它信息，我们必须把它们都提取到一起提交给服务器。

一个scrapy模拟登录的方法

2、我们在form表单下面找到了一个display:none的div标签，里面的input标签的value值正好是我们要提交的数据，那我们就提取到他。

一个scrapy模拟登录的方法

上文介绍了python爬虫之scrapy模拟登录，仅供参考。

相关资讯

1、代理服务器的分类有哪些 2、HTTP代理与SOCKS代理的区别 3、代理服务器的可以分为哪些种类 4、http代理和https代理的区别 5、代理服务器的工作原理 6、代理格式的含义详解

相关文章内容简介

多IP自由切换，不限量IP代理套餐

精灵代理-已在国内200+城市地区设置节点，可以给大家更广泛的选择空间。In today's digital age, having the ability to switch between multiple IP addresses is essential for many individuals and businesses. Whether you are looking to bypass geo-restrictions, enhance your online security, or simply maintain anonymity while browsing the internet, having access to a reliable and unlimited IP proxy service is crucial.With the rise of online censorship and surveillance, being able to switch between multiple IP address...[阅读全文]

`最佳代理服务器网站推荐`重要性何在?

精灵代理-代理IP均为高匿名IP，代理服务器不会转发原始请求的IP，也不会添加额外的代理ip特征头，ip高匿名。最佳代理服务器网站推荐重要性何在?在如今信息爆炸的时代，网络安全问题愈发凸显。随着网络攻击的不断增多，保护个人隐私和数据安全成为重中之重。而代理服务器则成为一种有效的网络安全工具，可以帮助用户隐藏IP地址、加密数据传输、浏览被封锁的网站等。然而，选择一个可信赖且高效的代理服务器网站也成为了一项挑战。这就为我们带来了一个重要问题：最佳代理服务器网站推荐的重要性何在？首先，最佳代理服务器网站推荐能够保障用户的隐私和安全。在互联网上，有许多不法分子利用用户的个人信息进行网络攻击或者盗取用户的隐私数据。通过使用代理服务器，用户可以隐藏自己的真实IP地址，避免被不法分子跟踪或监视，从而保护个人隐私。而选择一个可信赖的代理服务器网站，可以确保用户的数据传输受到加密保护，有效防止信息泄露和被窃取的风险。其次，最佳代理服务器网站推荐还能帮助用户突破地域限制，访问被封锁的网站。在一些国家或地区，政府或者互联网服务提供商会对一些特定网站进行封锁，导致用户无...[阅读全文]

推荐阅读

1、干货分享：网络推广实用性技巧11-12 2、代码遇到异常怎么办？python异常处理方法01-07 3、爬虫一定要用Python语言吗？01-08 4、HTTP1.1与 HTTP1.0 协议的区别有哪些02-18 5、Python爬虫：如何在一个月内学会爬取大规模数据？02-19 6、HTTP的技术架构02-19

热门文章

1、什么是IP代理？IP代理有什么用09-20 2、代理IP地址怎么设置09-20 3、http代理和https代理的区别09-21 4、代理服务器的分类有哪些09-18 5、代理服务器是什么09-18 6、代理IP有什么用09-20 7、代理服务器的工作原理09-21 8、HTTP代理与SOCKS代理的区别09-18

随机推荐

1、如何选择好用的代理IP09-25 2、浏览器如何设置代理IP上网10-23 3、常见的反爬虫及应对方法10-09 4、网络爬虫中HTTP代理IP的重要性09-30

在线咨询

800819103

在线客服，实时响应

qq群

在线客服，实时响应

客服电话

13318873961

微信公众号

微信公众号