团队任务 | 预估时间 | 实际时间 | 完成日期 |
---|---|---|---|
搜索引擎相关内容了解 | 300 | 500 | 11-5 |
数据库表的创建 | 180 | 150 | 11-5 |
学院网站的爬取 | 210 | -- | -- |
建立数据库索引 | 190 | -- | -- |
代码测试 | 180 | -- | -- |
前端页面的设计 | 240 | -- | -- |
前后端的交互 | 300 | -- | -- |
搜索引擎测试 | 260 | -- | -- |
成员 | 任务安排 | 预期任务量/小时 |
---|---|---|
秦玉(组长) | 配置Elasticsearch-analysis-ik插件、安装ELasticSearch,配置Elasticsearch-analysis-ik插件,安装Redis 、完成第二次冲刺博客园 | 200 |
陈晓菲 | 配置Elasticsearch-analysis-ik插件、安装ELasticSearch,配置Elasticsearch-analysis-ik插件,安装Redis, Django、完成第二次冲刺博客园 | 200 |
韩烨 | 了解b服务器的部署 | 140 |
姚雯婷 | 配置Elasticsearch-analysis-ik插件、安装ELasticSearch,配置Elasticsearch-analysis-ik插件,安装Redis | 200 |
罗佳 | 学习爬虫原理,并实践、初步编写代码、 | 160 |
高天 | 学习爬虫原理,并实践、初步编写代码、 | 160 |
本次整个团队重点在配置搜索引擎的运行环境,我们使用的环境如下:
在配置环境的过程中,因为在冲刺一时确定了整个框架,但是没有沟通好版本细节上,导致本次会议中有大半时间用来协调统一组内已安装的软件的版本。
配置完项目所需环境
爬虫初步实现
数据库的建立
?
字段名 | 解释 |
---|---|
title | 文章标题 |
create_date | 创建时间 |
url | 文章路径 |
url_object_id | 路径id |
front_image_url | 文章图片 |
content | 文章内容 |
crawl_time | 爬下数据的时间 |
PS:这是我们参考了一些大型网站的爬取信息中的数据库字段的建立设计的,但是后面发现我们学校的架构跟其他网站还是差很多的,大型网站一般靠使用css选择器进行内容的获取,但是我们学校的官网几乎是纯用表格进行布局的,所以后面可能还是会根据实际情况进行二次调整
原文:https://www.cnblogs.com/qin-yu/p/9954260.html