一、词袋模型
维度=|词典|; 稀疏向量
假设词典里有7个单词【我们,去,爬山,今天,你们,昨天,运动】
每个单词的表示:
我们:[1,0,0,0,0,0,0]
爬山:[0,0,1,0,0,0,0]
运动:[0,0,1,0,0,0,1]
句子的表示:
我们今天去爬山:[1,1,1,1,0,0,0]
你们昨天运动:[0,0,0,0,1,1,1]
怎么表示句子的相关性?
欧式距离计算:d=|s1-s2| 只关注距离没考虑方向 , 值越高句子相似度越低
余弦相似度计算:d = (s1*s2)/|s1|*|s2| 值越高句子相似度越高
原文:https://www.cnblogs.com/fionacai/p/11531023.html