其实,本质上和爬虫没区别,只不过这是人家主动给你数据,而且是编排好格式后的数据
按个人主页url更新内容
去重,按照redis去重的方式
按时间保存内容
mysql 保存为时间格式(可以根据时间比较大小,需要把post时间转换为datetime类型存储)
定时更新,可以设置更新时间
从数据库中取前10条最新更新文章,下一页-再取10条展示
按兴趣等级标记文章:不感兴趣-不展示,一般-展示,很感兴趣-收藏,
提供收藏功能,单独展示收藏过的文字
查看关注的人的信息,提供取消关注功能,被取消的不再更新内容
提供历史关注信息?
---这种方式暂时不使用,因为有滑动验证码比较麻烦,不如直接维护关注的人的id
---虽然短时间内频繁登录很麻烦,但隔时间比较久更新还是可以的,比如隔一周后两三天更新一次关注列表
刷新关注列表时,把新增的up的头像url保存
是否更新成功用头像+id来判断,到时候首页展示所关注的up的信息
对于长期来讲就方便多了,不用手动维护一个列表,而只要设置定时任务即可
1.爬虫-登录
2.获取关注的人列表
刷新关注列表时,把新增的up的头像url保存
对于up的信息展示:头像/昵称,都可以点击到个人文章主页
文章:
标题,摘要,链接(唯一标识),post时间,作者引用,
具体实现讨论:
因为要存储,直接写sql太麻烦,考虑用模块
最终是要通过html显示的,所以直接上flask,配合sqlalchemy使用
flask + flask_sqlalchemy
更新-up:根据id判断,头像不进行更新
更新-文章:
是否是新文章:判断文章url
是否更新:判断post时间
原文:https://www.cnblogs.com/justaman/p/11925395.html