文本表示:one-hot(单词),boolean representation(句子),count-based representation(句子)
词典:[我,要,去,北京,上海,南京]
One-hot
w1=我:[1,0,0,0,0,0]
w2=要:[0,1,0,0,0,0]
w3=去:[0,0,1,0,0,0]
w4=北京:[0,0,0,1,0,0]
缺点:矩阵稀疏;不能表示语义
boolean representation
s1=我 要 去 北京:[1,1,1,1,0,0]
s2=我 要 去 上海:[1,1,1,0,1,0]
s3=我 要 去 北京 啊 北京:[1,1,1,1,0,0]
count-based representation
我 要 去 北京:[1,1,1,1,0,0]
我 要 去 北京 啊 北京:[1,1,1,2,0,0]
二、文本距离
欧式距离:?
余弦距离:?
三、词向量
从第一节我们知道one-hot表示方法的缺陷,为解决这个问题,我们使用分布式表示方法(针对于单词的方法是词向量)。
二者区别:100维的one-hot表示法最多可以表示100个单词,但是100维的分布式表示方法最多可以表示无数个单词。
①能计算词与词之间的相似度,能对词进行可视化
原文:https://www.cnblogs.com/mj-selina/p/12853075.html