Python爬虫怎么提取免费IP-精灵代理

您的位置：新闻资讯 >文章内容

Python爬虫怎么提取免费IP

来源：Python中文社区作者：admin 时间：2018-12-12 16:10:02

爬虫经常会遇到IP限制，如果不使用IP进行切换，是没有办法继续采集的。这主要是网站针对爬虫的措施，那么如何能够突破IP限制呢？最简单快捷的方法就是使用IP池，频繁切换IP访问，这肯定是需要大量的IP，这IP怎么来？可以使用Python爬虫抓取免费IP，下面一起去看看Python爬虫怎么提取免费IP。

一、requests代理使用

对于requests来说，代理的设置比较简单，只需要传入proxies参数即可。

不过需要注意的是，这里我是在本机安装了抓包工具Fiddler，并用它在本地端口8888创建了一个HTTP代理服务（用Chrome插件SwitchyOmega），即代理服务为：127.0.0.1:8888，我们只要设置好这个代理，就可以成功将本机ip切换成代理软件连接的服务器ip了。

import requests

proxy = '127.0.0.1:8888'proxies = {
    'http':'http://' + proxy,
    'https':'http://' + proxy}try:
    response = requests.get('http://httpbin.org/get',proxies=proxies)
    print(response.text)except requests.exceptions.ConnectionError as e:
    print('Error',e.args)

这里我是用来http://httpbin.org/get作为测试网站，我们访问该网页可以得到请求的有关信息，其中origin字段就是客户端ip，我们可以根据返回的结果判断代理是否成功。返回结果如下：

{
    "args":{}，    "headers":{
        "Accept":"*/*",
        "Accept-Encoding":"gzip, deflate",
        "Connection":"close",
        "Host":"httpbin.org",
        "User-Agent":"python-requests/2.18.4"
    },
    "origin":"xx.xxx.xxx.xxx",
    "url":"http://httpbin.org/get"}

二、爬取代理网页ip和端口

开始爬取代理IP，首先我们打开Chrome浏览器查看网页，并找到ip和端口元素的信息。

Python爬虫怎么提取免费IP

可以看到，代理IP以表格存储ip地址及其相关信息，所以我们用BeautifulSoup提取时很方便便能提取出相关信息，但是我们需要注意的是，爬取的ip很有可能出现重复的现象，尤其是我们同时爬取多个代理网页又存储到同一数组中时，所以我们可以使用集合来去除重复的ip。

Python爬虫怎么提取免费IP

将要爬取页数的ip爬取好后存入数组，然后再对其中的ip逐一测试。

三、检测爬取到的ip是否可用

Python爬虫怎么提取免费IP

这里就用到了上面提到的requests设置代理的方法，我们使用http://httpbin.org/ip作为测试网站，它可以直接返回我们的ip地址，测试通过后再存入MomgoDB数据库。

四、将爬取的可用代理存入MongoDB

连接数据库然后指定数据库和集合，再将数据插入就OK了。

最后运行查看一下结果吧

毕竟是免费代理，有效的还是很少的，并且存活时间确实很短，不过，爬取的量大，还是能找到可用的，我们只是用作练习的话，还是勉强够用的。现在看看数据库里存储的吧。

五、随机抽取一个ip,测试成功后返回

因为爬取的页数不多，加上有效ip也少，再加上我没怎么爬，所以现在数据库里的ip并不多，不过也算是将这些ip给存了下来。现在就来看看怎么随机取出来吧。

由于担心放入数据库一段时间后ip会失效，所以取出前我重新进行了一次测试，如果成功再返回ip，不成功的话就直接将其移出数据库。

这样我们需要使用代理的时候，就能通过数据库随时取出来了。

相关资讯

1、代理IP对于Python爬虫有多重要 2、python爬虫为什么需要使用代理ip 3、如何处理python爬虫ip被封 4、Python爬虫遇到403怎么解决 5、怎么加快爬虫速度？优化Python爬虫的速度 6、新手学Python容易犯的错，你掉过哪些坑

相关文章内容简介

多IP自由切换，不限量IP代理套餐

精灵代理-已在国内200+城市地区设置节点，可以给大家更广泛的选择空间。In today's digital age, having the ability to switch between multiple IP addresses is essential for many individuals and businesses. Whether you are looking to bypass geo-restrictions, enhance your online security, or simply maintain anonymity while browsing the internet, having access to a reliable and unlimited IP proxy service is crucial.With the rise of online censorship and surveillance, being able to switch between multiple IP address...[阅读全文]

`最佳代理服务器网站推荐`重要性何在?

精灵代理-代理IP均为高匿名IP，代理服务器不会转发原始请求的IP，也不会添加额外的代理ip特征头，ip高匿名。最佳代理服务器网站推荐重要性何在?在如今信息爆炸的时代，网络安全问题愈发凸显。随着网络攻击的不断增多，保护个人隐私和数据安全成为重中之重。而代理服务器则成为一种有效的网络安全工具，可以帮助用户隐藏IP地址、加密数据传输、浏览被封锁的网站等。然而，选择一个可信赖且高效的代理服务器网站也成为了一项挑战。这就为我们带来了一个重要问题：最佳代理服务器网站推荐的重要性何在？首先，最佳代理服务器网站推荐能够保障用户的隐私和安全。在互联网上，有许多不法分子利用用户的个人信息进行网络攻击或者盗取用户的隐私数据。通过使用代理服务器，用户可以隐藏自己的真实IP地址，避免被不法分子跟踪或监视，从而保护个人隐私。而选择一个可信赖的代理服务器网站，可以确保用户的数据传输受到加密保护，有效防止信息泄露和被窃取的风险。其次，最佳代理服务器网站推荐还能帮助用户突破地域限制，访问被封锁的网站。在一些国家或地区，政府或者互联网服务提供商会对一些特定网站进行封锁，导致用户无...[阅读全文]

推荐阅读

1、做网络营销怎么换IP？更换电脑IP地址的常用方法11-08 2、为什么免费的代理IP不好用？自己搭建代理IP池要注意什么11-10 3、win10系统怎么换IP【图文教程】11-13 4、如何写爬虫？python爬虫框架有哪些？11-30 5、爬虫遇到验证码怎么办？python爬虫验证码处理12-05 6、大数据如何采集？通过爬虫、代理IP等工具实现快速采集12-10

热门文章

1、什么是IP代理？IP代理有什么用09-20 2、代理IP地址怎么设置09-20 3、http代理和https代理的区别09-21 4、代理服务器的分类有哪些09-18 5、代理服务器是什么09-18 6、代理IP有什么用09-20 7、代理服务器的工作原理09-21 8、HTTP代理与SOCKS代理的区别09-18

随机推荐

1、代理服务器完全解析11-02 2、代理ip能保护隐私吗？好用的代理ip软件推荐11-09 3、干货分享：网络推广实用性技巧11-12 4、怎么验证代理IP是否可用？哪一款代理IP好用?11-19

在线咨询

800819103

在线客服，实时响应

qq群

在线客服，实时响应

客服电话

13318873961

微信公众号

微信公众号