您的位置:新闻资讯 >文章内容
Python爬虫怎么获取分页数据
来源:互联网 作者:admin 时间:2018-11-27 14:14:45

    在采集数据时,通常有些文章不止一个页面,如果想获取分页的数据,应该怎么获取呢?下面跟精灵代理一起去了解一下爬虫怎么获取分页数据。


    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。


    传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。


    一、爬取对象


    选定网站某栏目下的前10页数据


    二、编程思路


    寻找分页地址的变动规律;解析网页,获取内容,放入自定义函数中;调用函数,输出分页内容。


    三、爬虫怎么获取分页数据


    1. 首先插入用到的库:BeautifulSoup、requests


    2. 观察地址的变化规律,可以看到,每切换一页时,后面“createTimeDesc-1.html”中的数字1会随着页面的变动而变动,此时我们将地址存放进列表中,后面用format()和for循环来实现多个地址的存储。


    此时可以先print下,看地址是否正确,这里range(1,11)是前10个页面的地址。


爬虫怎么获取分页数据


    3. 接下来定义解析函数,参数data的初始值为空。函数内用到的内容和上一篇文章中讲到的相同。先请求urls,然后用BeautifulSoup解析,筛选我们想要的项目标题titles的位置,实现输出。


    4. 最后,我们来调用函数。


相关文章内容简介
在线咨询
微信公众号

微信公众号

回到顶部