简单几步,通过Python对B站番剧排行数据进行爬取,并进行可视化分析
下面,我们开始吧!
本项目将会对B站番剧排行的数据进行网页信息爬取以及数据可视化分析
首先,准备好相关库
requests、pandas、BeautifulSoup、matplotlib等
因为这是第三方库,所以我们需要额外下载
下载有两种方法(以requests为例,其余库的安装方法类似):
(一)在命令行输入
前提:装了pip( Python 包管理工具,提供了对Python 包的查找、下载、安装、卸载的功能。)
(二)通过PyCharm下载

找到Project Interpreter 点击右上角加号按钮,弹出界面上方搜索库名:requests,点击左下角Install ,当提示successfully时,即安装完成。

一、获取网页内容
我们来看爬取情况,是否有我们想要的内容:
爬取结果如下图所示:
成功!
二、信息解析阶段
我们先获取番剧的名字,并将它们先存进列表中
此处我们用到了beautifulsoup的find_all()来进行解析。在这里,find_all()的第一个参数是标签名,第二个是标签中的class值(注意下划线哦(class_=‘info’))。
我们在网页界面按下F12,就能看到网页代码,找到相应位置,就能清晰地看见相关信息:
接着,我们用几乎相同的方法来对综合评分、播放量,评论数和收藏数来进行提取
其中有个.next_sibling是用于提取同级别的相同标签信息,如若没有这个方法,当它找到第一个’span’标签之后,就不会继续找下去了(根据具体情况来叠加使用此方法);
还用到了正则表达式来提取信息(需要导入库‘re’)
最后我们将提取的信息,存进excel表格之中,并返回结果集
我们可以打开文件看一看存储的信息格式(双击打开)

成功!
三、数据可视化分析
我们先做一些基础设置
要先准备一个文件: STHeiti Medium.ttc [注意存放在项目中的位置]
然后,开始使用matplot来绘制图形,实现数据可视化分析
文中有详细注释,这里就不再赘述了,聪明的你一定一看就懂了~
来看看效果
有没有瞬间就感觉高~大~上~~了(嘿嘿~)
然后我们用相同的方法来多绘制几个对比图:
我们来看看最终效果

Nice!很完美~ 大家可以根据自己的想法按照相同的方法进行数据组合分析。
【本文完整源码获取方式】
公众号回复:b站动漫分析
------------------- End -------------------
我爬取了爬虫岗位薪资,分析后发现爬虫真香
教你搭建一个花卉识别系统(超级简单)
竟然如此简单!输入明星名字就可以直接爬取高清图片

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持
想加入Python学习群请在后台回复【入群】
万水千山总是情,点个【在看】行不行

版权声明
本文系作者授权念乡人发表,未经许可,不得转载。

