则称f(x)f(x)为凸函数
取等号的条件是:f(xi)f(xi)是常量
聚类的本质:将数据集中相似的样本进行分组的过程
每个组称为一个簇(cluster)(cluster)每个簇的样本对应一个潜在的类别
样本没有类别标签,一种典型的无监督学习方法
这些簇满足以下两个条件
聚类方法:层次聚类、K?MeansK?Means、谱聚类等
K?MeansK?Means最初起源于信号处理,是一种比较流行的聚类方法
数据集为{xi}ni=1{xi}i=1n,将样本划分为kk个簇,每个簇中心为cj(1≤j≤k)cj(1≤j≤k)
优化目标:最小化所有样本点到所属簇中心的距离平方和
其中rij∈{0,1}rij∈{0,1},若样本xixi被划分到簇kk中,那么rij=1rij=1,且对于j≠kj≠k,有rij=0rij=0,∑kj=1rij=1∑j=1krij=1
模型:minr,cJ(r,c)=∑kj=1∑ni=1rij||xi?cj||22minr,cJ(r,c)=∑j=1k∑i=1nrij||xi?cj||22
交替迭代法:
优化目标:J(r)=∑nj=1∑ki=1rij||xi?cj||22=∑ni=1Ji(ri)J(r)=∑j=1n∑i=1krij||xi?cj||22=∑i=1nJi(ri)
算法流程:
假设数据集为xini=1xii=1n,隐含变量为{zi}ni=1,zi∈{1,2,...,k}{zi}i=1n,zi∈{1,2,...,k}模型参数为θθ
似然函数LL(θ)=∑ni=1ln(∑kj=1p(xi,zi|θ))LL(θ)=∑i=1nln(∑j=1kp(xi,zi|θ))
算法流程:
原文:https://www.cnblogs.com/zwx655/p/14467049.html