首页 > 编程语言 > 详细

Python高级应用程序设计任务

时间:2019-12-20 01:42:41      阅读:126      评论:0      收藏:0      [点我收藏+]

一、主题式网络爬虫设计方案(15分)

 

1.主题式网络爬虫名称

 

新浪网新闻汽车栏目

2.主题式网络爬虫爬取的内容与数据特征分析

 

新浪网新闻汽车栏目爬虫+文本分析(结巴+词云)

3.主题式网络爬虫设计方案概述(包括实现思路与技术难点)

 

本次设计方案主要依靠BeautifulSoup库对新浪网访问并采集,最后以txt格式将数据保存在本地。

 

技术难点主要包括对页面的分析、对数据的采集和对数据的持久化操作。

 

二、主题页面的结构特征分析(15分)

1.主题页面的结构特征

打开新浪网页,通过右击鼠-标查看网页源代码,找到对应要爬取的信息

https://auto.sina.com.cn/包含了汽车的车型、报价、新车、导购等信息。

 技术分享图片

技术分享图片技术分享图片技术分享图片技术分享图片2.Htmls页面解析

 技术分享图片

技术分享图片技术分享图片技术分享图片技术分享图片技术分享图片三、网络爬虫程序设计(60分)
爬虫程序主体要包括以下各部分,要附源代码及较详细注释,并在每部分程序后面提供输出结果的截图

车型

1.数据爬取与采集。

技术分享图片技术分享图片

2.对数据进行清洗和处理

技术分享图片技术分享图片

 技术分享图片

车型,3.文本分析(可选):jieba分词、wordcloud可视化
4.数据分析与可视化
(例如:数据柱形图、直方图、散点图、盒图、分布图、数据回归分析等)

 5.数据持久化

 技术分享图片

四、结论(10分)
1.经过对主题数据的分析与可视化,可以得到哪些结论?

通过对主体数据的提取分析,可以清楚地知道车型价位,一目了然。



2.对本次程序设计任务完成的情况做一个简单的小结。

经过这次的学习与作业实践,学到了很多爬虫的知识,不过还是远远不够的。

发现数据可视化和数据清洗真的很重要,对python的兴趣更加浓厚了。

Python高级应用程序设计任务

原文:https://www.cnblogs.com/emptycity6/p/12070820.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!