日期:2020.02.02
博客期:141
星期日
嗯~昨天相当于把数据重新爬了一边,但是貌似数据仍然不合适。问题到底出在什么地方呢?我直接回答了吧!如果我们的需求仅仅是云图展示,那么这些数据就够用了,甚至还多,因为任务是要实现“标记热词出现在哪个新闻里”,这就需要我们记录一下标题。当然!这也不难实现。我先把我所有的 Python 类全部单独分包做成一个.py文件。然后,我将数据库文件重新配置,将sql文件覆盖到上一篇博客中(本篇博客也会发出下载链接)。然后找到之前的添加解释的类,进行二次利用,重新爬取!这个任务也做完了以后呢,我会把之前的链接分别对应到每一个热词,利用 jsp 技术实现热词相关信息的展示。最后,将探索一下热词之间的紧密程度(说实在的我现在有点儿不太理解这是什么意思,等睡一觉,起来问了老师,再修改本篇博客),利用 ECharts 接口制作可供展示的关系图。
1、整理文件(修改之前的 爬取网页的 文件 不再 撰写)
2、重写 Bean 相关的基础类(可记录标题)
3、简单的数据导入(附带sql文件)
4、解释修复——重新利用 百度百科 进行解释性文字爬取
5、jsp实现热词的信息展示(附带三种排序)
6、将链接写到每一个对应热词当中去
7、挖掘热词之间的相似程度
8、ECharts 接口实现热词关系图展示
【明日正午12:00继续更新】
Python 爬取 热词并进行分类数据分析-[解释修复+热词引用+热词关联]
原文:https://www.cnblogs.com/onepersonwholive/p/12250887.html