爬取B站全站日榜前20数据进行数据分析与可视化

时间：2020-04-22 09:33:08 阅读：134 评论：0 收藏：0 [点我收藏+]

一、设计方案

1.主题式网络爬虫名称：爬取B站全站日榜前20数据进行数据分析与可视化
2.爬取内容与数据特征分析：爬取B站日榜排名前20数据包括排名、事件、热度，数据未呈一定规律排序。
3.设计方案概述：思路：首先打开目标网站，运用工具查看源代码，寻找数据标签，通过写爬虫代码爬取所要的数据，将数据保存为csv文件，读取csv文件对数据进行整理、可视化操作。
难点：网站数据的实时更新；寻找数据标签；对数据整理、可视化等代码的掌握程度较低。
二、主题页面的结构特征分析
1.主题页面的结构与特征：爬取数据分布于a标签中，热度标签为td。
2.Htmls页面解析

技术分享图片

3.节点（标签）查找方法与遍历方法：通过re模块的findall方法进行查找。
三、程序设计
1.数据爬取与采集

import re
import requests
import pandas as pd

url = ‘https://tophub.today/n/74KvxwokxM‘ #网站数据
headers = {‘user-Agent‘:""} #伪装爬虫
response=requests.get(url,headers=headers,timeout=30) #设置延迟
response = requests.get(url,headers = headers) #请求页面
#爬取内容
html = response.text 
titles = re.findall(‘<a href=".*?">.*?(.*?)</a>‘,html)[4:24]
heat = re.findall(‘<td>(.*?)</td>‘,html)[0:20] 
   
x = {‘标题‘:titles,‘热度‘:heat}
y = pd.DataFrame(x)
data=[] #创建空列表
for i in range(20):
    data.append([i+1,titles[i],heat[i][:]]) #拷贝数据

file=pd.DataFrame(data,columns=[‘排名‘,‘bilibili热榜‘,‘热度‘])
print(file)
file.to_csv(‘D:\\bbc\\bilibili热榜.csv‘) #保存文件

技术分享图片

2.对数据进行清洗和处理

#读取csv文件
df = pd.DataFrame(pd.read_csv(‘bilibili热榜.csv‘))
df.head()

技术分享图片

#删除无效行列
df.drop(‘bilibili热榜‘,axis=1,inplace=True)
df.head

技术分享图片

#缺失值处理
df.isnull().head() #True为缺失值，False为存在值

技术分享图片

#空值处理
df.isnull().sum() #0表示无空值

技术分享图片

#查找重复值
df.duplicated() #显示表示已经删除重复值

技术分享图片

爬取B站全站日榜前20数据进行数据分析与可视化

原文：https://www.cnblogs.com/fxc0210/p/12726282.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)