案例实战：爬虫怎么爬取新闻信息-精灵代理

您的位置：新闻资讯 >文章内容

案例实战：爬虫怎么爬取新闻信息

来源：后端漫谈作者：admin 时间：2018-12-04 17:25:30

爬虫可以大量的爬取数据，通过整合数据，可以挖掘有价值的信息，常常应用于电商等行业。许多新手也想通过自学，学会爬虫的编写，实现数据的爬取。今天精灵代理小编跟大家分享爬取新闻信息的案例，至于爬虫怎么爬取新闻信息，就跟小编一起去了解一下。

一、爬取目的

主要是爬取网易新闻，包括新闻标题、作者、来源、发布时间、新闻正文。

二、爬取步骤

1.找出请求地址

我们打开163的网站，我们随意选择一个分类，这里我选的分类是国内新闻。然后鼠标右键点击查看源代码，发现源代码中并没有页面正中的新闻列表。这说明此网页采用的是异步的方式。也就是通过api接口获取的数据。

那么确认了之后可以使用F12打开谷歌浏览器的控制台，点击 Network，我们一直往下拉，发现右侧出现了："… special/00804KVA/cm_guonei_03.js? … "之类的地址，点开Response发现正是我们要找的api接口。

可以看到这些接口的地址都有一定的规律：“cm_guonei_03.js”、“cm_guonei_04.js”，那么就很明显了：

http://temp.163.com/special/00804KVA/cm_guonei_0(*).js

上面的链接也就是我们本次抓取所要请求的地址。

接下来只需要用到的python的两个库：

2.开始编写爬虫

先导入requests、json、BeautifulSoup三个包。requests库就是用来进行网络请求的，说白了就是模拟浏览器来获取资源。由于我们采集的是api接口，它的格式为json，所以要用到json库来解析。BeautifulSoup是用来解析html文档的，可以很方便的帮我们获取指定div的内容。

接着我们定义一个获取指定页码内数据的方法：

这样子就得到每个页码对应的内容列表：

案例实战：爬虫怎么爬取新闻信息

之后通过分析数据可知下图圈出来的则是需要抓取的标题、发布时间以及新闻内容页面。

既然现在已经获取到了内容页的url，那么接下来开始抓取新闻正文。

在抓取正文之前要先分析一下正文的html页面，找到正文、作者、来源在html文档中的位置。

我们看到文章来源在文档中的位置为：id = “ne_article_source” 的 a 标签。作者位置为：class = “ep-editor” 的 span 标签。正文位置为：class = “post_text” 的 div 标签。

下面采集这三个内容的代码：

案例实战：爬虫怎么爬取新闻信息

到此为止我们所要抓取的所有数据都已经采集了，为了方便直接采取文本的形式来保存。

格式为json字符串，“标题” ： [ ‘日期’， ‘url’， ‘来源’， ‘作者’， ‘正文’ ]。

要注意的是目前实现的方式是完全同步的，线性的方式，存在的问题就是采集会非常慢。主要延迟是在网络IO上，下次可以升级为异步IO，异步采集，有兴趣的可以关注下次的文章。

上文比较详细的介绍了爬虫怎么爬取新闻信息，通过本次练手，各位应该会对爬虫有一个入门级的了解。作为一位新手，还是多动手，多实践，才能学到东西，仅仅是看，学不会。

相关资讯

1、爬虫怎么爬取大规模数据的？精灵代理千万IP池来帮忙 2、Python爬虫技巧：百万级数据怎么爬取 3、网页上的数据怎么爬取？建立一个网路爬虫方法 4、爬虫怎么爬取图片？爬虫实现批量下载图片 5、案例实战：爬虫怎么爬取新闻信息 6、怎么快速掌握网络爬虫基础，实现大量信息爬取

相关文章内容简介

稳定高效的代理IP服务-再次推荐

精灵代理-已在国内200+城市地区设置节点，可以给大家更广泛的选择空间。稳定高效的代理IP服务-再次推荐近年来，随着互联网的快速发展，代理IP服务在网络安全、数据采集等领域扮演着越来越重要的角色。而选择一家稳定高效的代理IP服务提供商成为了许多企业和个人的首要任务。今天，我们再次向大家推荐一家值得信赖的代理IP服务商，帮助您更好地进行网络数据采集、访问限制网站等操作。1. 稳定性保障稳定性是选择代理IP服务商的首要考量因素之一。一家好的代理IP服务商应该能够提供稳定可靠的代理IP，确保您的网络数据采集、访问限制网站等操作不受影响。推荐的代理IP服务商拥有强大的技术团队和稳定的服务器资源，能够保证代理IP的稳定性和可靠性。2. 高效性能除了稳定性之外，高效性能也是选择代理IP服务商的重要考量因素之一。一家优秀的代理IP服务商应该能够提供高效的代理IP服务，帮助您更好地进行网络数据采集、访问限制网站等操作。推荐的代理IP服务商拥有强大的网络带宽和优质的代理IP资源，能够保证代理IP的高效性能，让您能够更快速、更顺畅地进行操作。3. 客户服务支持在选择...[阅读全文]

优质代理IP流量提升您的网络访问速度

精灵代理-IP覆盖全国地区，支持指定城市，指定省份，全国混拨ip代理，代理ip软件可用海量的ip地址。优质代理IP流量提升您的网络访问速度在当今数字化时代，网络已经成为人们生活中不可或缺的一部分。无论是工作、学习还是娱乐，我们都需要依赖网络进行信息传递和交流。然而，由于网络的高度拥挤和复杂性，有时我们会遇到网络速度慢、访问受限等问题。为了解决这些问题，越来越多的人开始使用代理IP来提升网络访问速度。代理IP是一种通过代理服务器进行网络访问的方式，可以隐藏真实IP地址，防止个人信息泄霩。同时，代理IP还可以改善网络连接速度，提升访问效率。在网络访问过程中，代理服务器会充当中间人的角色，帮助用户与目标服务器进行通信，从而加速数据传输过程。因此，使用优质代理IP能够有效提升您的网络访问速度。那么，如何选择优质的代理IP呢？首先，要选择稳定可靠的代理服务商。优质的代理服务商通常拥有多个服务器节点，提供高速稳定的网络连接，保障用户的网络体验。其次，要注意代理IP的隐私保护能力。好的代理IP服务商会采取严格的隐私保护措施，确保用户信息不被泄露。最后，要选择适...[阅读全文]

推荐阅读

1、爬虫用哪家动态代理好？自建与购买代理IP的优劣势分析11-13 2、什么是代理服务器？精灵代理高匿名，保护隐私11-23 3、爬虫需要什么类型的代理IP？几种类型代理IP的区别11-24 4、用Fiddler怎样抓取APP的数据包的方法12-24 5、爬虫怎么获取可用IP？爬虫怎么调用代理IP？01-05 6、Python与PHP有什么区别01-08

热门文章

1、什么是IP代理？IP代理有什么用09-20 2、代理IP地址怎么设置09-20 3、http代理和https代理的区别09-21 4、代理服务器的分类有哪些09-18 5、代理服务器是什么09-18 6、代理IP有什么用09-20 7、代理服务器的工作原理09-21 8、HTTP代理与SOCKS代理的区别09-18

随机推荐

1、浏览器如何设置代理IP上网10-23 2、http代理选哪家比较好？免费在线代理网站11-14 3、爬虫需要什么类型的代理IP？几种类型代理IP的区别11-24 4、一个代理IP能用多久？爬虫多久换一次IP不会被封01-04

在线咨询

800819103

在线客服，实时响应

qq群

在线客服，实时响应

客服电话

13318873961

微信公众号

微信公众号