首页 > 其他 > 详细

文本表示

时间:2019-09-17 00:43:09      阅读:119      评论:0      收藏:0      [点我收藏+]

一、词袋模型

维度=|词典|; 稀疏向量

假设词典里有7个单词【我们,去,爬山,今天,你们,昨天,运动】

 

每个单词的表示:

我们:[1,0,0,0,0,0,0]

爬山:[0,0,1,0,0,0,0]

运动:[0,0,1,0,0,0,1]

句子的表示:

我们今天去爬山:[1,1,1,1,0,0,0]

你们昨天运动:[0,0,0,0,1,1,1]

怎么表示句子的相关性?

欧式距离计算:d=|s1-s2|  只关注距离没考虑方向 , 值越高句子相似度越低

 技术分享图片 

余弦相似度计算:d = (s1*s2)/|s1|*|s2|  值越高句子相似度越高

 

文本表示

原文:https://www.cnblogs.com/fionacai/p/11531023.html

(1)
(1)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!