首页 > 其他 > 详细

[NLP]文本表示

时间:2020-05-08 23:29:16      阅读:99      评论:0      收藏:0      [点我收藏+]

一、文本表示

文本表示:one-hot(单词),boolean representation(句子),count-based representation(句子)

词典:[我,要,去,北京,上海,南京]

One-hot

w1=我:[1,0,0,0,0,0]

w2=要:[0,1,0,0,0,0]

w3=去:[0,0,1,0,0,0]

w4=北京:[0,0,0,1,0,0]

缺点:矩阵稀疏;不能表示语义

boolean representation

s1=我 要 去 北京:[1,1,1,1,0,0]

s2=我 要 去 上海:[1,1,1,0,1,0]

s3=我 要 去 北京 啊 北京:[1,1,1,1,0,0]

count-based representation

我 要 去 北京:[1,1,1,1,0,0]

我 要 去 北京 啊 北京:[1,1,1,2,0,0]

二、文本距离

欧式距离:?

余弦距离:?

三、词向量

从第一节我们知道one-hot表示方法的缺陷,为解决这个问题,我们使用分布式表示方法(针对于单词的方法是词向量)。

二者区别:100维的one-hot表示法最多可以表示100个单词,但是100维的分布式表示方法最多可以表示无数个单词。

分布式表示方法的好处:

①能计算词与词之间的相似度,能对词进行可视化

②解决了one-hot的稀疏问题

 

来源于贪心科技NLP讲解

[NLP]文本表示

原文:https://www.cnblogs.com/mj-selina/p/12853075.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!