相似度计算对象是向量,或者叫做高维空间下的坐标,那表示这个向量的数值就有两种:
实数值;
布尔值,也就是0或者1。
这几种不同计算方法适用于不同的数据种类。
欧氏距离,是一个欧式空间下度量距离的方法,不适合布尔向量之间。
余弦相似度,度量的是两个向量之间的夹角,其实就是用夹角的余弦值来度量,所以名字叫余弦相似度。
余弦相似度在度量文本相似度、用户相似度、物品相似度的时候都较为常用。它与向量的长度无关。因为余弦相似度计算需要对向量长度做归一化:
皮尔逊相关度,实际上也是一种余弦相似度,不过先对向量做了中心化,向量p和q各自减去向量的均值后,再计算余弦相似度。
杰卡德相似度,是两个集合的交集元素个数在并集中所占的比例。由于集合非常适用于布尔向量表示,所以杰卡德相似度适用于布尔值向量。
原文:https://www.cnblogs.com/bind/p/11663324.html