4 基础知识
Domain:领域,数据和生成这些数据的概率分布。
Task: 任务,是学习的目标。
任务主要由两部分组成:标签和标签对应的函数。
思路:相似性是核心,度量准则是重要手段。
常见的几种距离:
欧式距离:定义在两个向量(空间中的两个点) 上,
\(d = \sqrt { ( x - y ) ^ { \top } ( x - y ) }\)
闵可夫斯基距离:两个向量(点)的p 阶距离,
\(d = \left( \| \mathbf { x } - \mathbf { y } \| ^ { p } \right) ^ { 1 / p }\)
马氏距离:定义在两个向量(两个点) 上,这两个数据在同一个分布里,
\(d = \sqrt { ( x - y ) ^ { \top } \Sigma ^ { - 1 } ( x - y ) }\),\(\Sigma\)是这个分布的协方差。
相似度 注意作用的对象!!
余弦相似度,衡量两个向量的相关性(夹角的余弦),
\(\cos ( \mathbf { x } , \mathbf { y } ) = \frac { \mathbf { x } \cdot \mathbf { y } } { | \mathbf { x } | \cdot | \mathbf { y } | }\)
互信息,定义在两个概率分布X, Y上,
\(I ( X ; Y ) = \sum _ { x \in X } \sum _ { y \in Y } p ( x , y ) \log \frac { p ( x , y ) } { p ( x ) p ( y ) }\)
皮尔逊相关系数,衡量两个随机变量的相关性。随机变量X, Y的Pearson相关系数为:
\(\rho _ { X , Y } = \frac { \operatorname { Cov } ( X , Y ) } { \sigma _ { X } \sigma _ { Y } }\)
理解:协方差矩阵除以标准差之积。
范围:[-1, 1],绝对值越大表示(正/负)相关性越大。
Jaccard相关系数,对两个集合X, Y ,判断他们的相关性,借用集合的手段:
\(J = \frac { X \cap Y } { X \cup Y }\)
理解:两个集合的交集除以并集。
扩展:Jaccard 距离=1 - J。
KL 散度与 JS 距离
KL散度,相对熵,非对称,衡量两个概率分布 P(x),Q(x) 的距离:
\(D _ { K L } ( P \| Q ) = \sum _ { i = 1 } P ( x ) \log \frac { P ( x ) } { Q ( x ) }\)
JS距离,对称度量:
\(J S D ( P \| Q ) = \frac { 1 } { 2 } D _ { K L } ( P \| M ) + \frac { 1 } { 2 } D _ { K L } ( Q \| M )\)
\(M = \frac { 1 } { 2 }( P + Q )\)
最大均值差异MMD
度量在再生希尔伯特空间中两个分布的距离,是一种核学习方法。两个随机变量的MMD平方距离为:
\(M M D ^ { 2 } ( X , Y ) = \left\| \sum _ { i = 1 } ^ { n _ { 1 } } \phi \left( \mathbf { x } _ { i } \right) - \sum _ { j = 1 } ^ { n _ { 2 } } \phi \left( \mathbf { y } _ { j } \right) \right\| _ { \mathcal { H } } ^ { 2 }\)
就是求两堆数据在RKHS 中的均值的距离。
现在还有多核MMD。
Principal Angle
也是将两个分布映射到高维空间(格拉斯曼流形) 中,在流形中两堆数据就可以看成两个点。Principal angle 是求这两堆数据的对应维度的夹角之和。
对于两个矩阵X, Y,计算方法:首先正交化(用PCA) 两个矩阵,然后:
\(P A ( \mathbf { X } , \mathbf { Y } ) = \sum _ { i = 1 } ^ { \min ( m , n ) } \sin \theta _ { i }\)
A-distance
用来估计不同分布之间的差异性。A-distance 被定义为建立一个线性分类器来区分两个数据领域的hinge 损失(也就是进行二类分类的hinge 损失)。
它的计算方式是,我们首先在源域和目标域上训练一个二分类器h,使得这个分类器可以区分样本是来自于哪一个领域。我们用err(h) 来表示分类器的损失,
\(\mathcal { A } \left( \mathcal { D } _ { s } , \mathcal { D } _ { t } \right) = 2 ( 1 - 2 \operatorname { err } ( h ) )\)
通常被用来计算两个领域数据的相似性程度。
Hilbert-Schmidt Independence Criterion
\(H S I C ( X , Y ) = \operatorname { trace } ( H X H Y )\)
希尔伯特-施密特独立性系数,用来检验两组数据的独立性。
Wasserstein Distance
\(W _ { 1 } ( \mathbb { P } , \mathbb { Q } ) = \sup _ { \| f \| _ { L } \leq 1 } \mathbb { E } _ { x \sim \mathbb { P } } [ f ( x ) ] - \mathbb { E } _ { x \sim \mathbb { Q } } [ f ( x ) ]\)
用来衡量两个概率分布之间距离的度量方法。
原文:https://www.cnblogs.com/Wiikk/p/12853515.html