[NLP]文本表示

时间：2020-05-08 23:29:16 阅读：103 评论：0 收藏：0 [点我收藏+]

一、文本表示

文本表示：one-hot(单词)，boolean representation(句子),count-based representation（句子）

词典：[我，要，去，北京，上海，南京]

One-hot

w1=我：[1,0,0,0,0,0]

w2=要：[0,1,0,0,0,0]

w3=去：[0,0,1,0,0,0]

w4=北京：[0,0,0,1,0,0]

缺点：矩阵稀疏；不能表示语义

boolean representation

s1=我要去北京：[1,1,1,1,0,0]

s2=我要去上海：[1,1,1,0,1,0]

s3=我要去北京啊北京：[1,1,1,1,0,0]

count-based representation

我要去北京：[1,1,1,1,0,0]

我要去北京啊北京：[1,1,1,2,0,0]

二、文本距离

欧式距离： $?$

余弦距离： $?$

三、词向量

从第一节我们知道one-hot表示方法的缺陷，为解决这个问题，我们使用分布式表示方法（针对于单词的方法是词向量）。

二者区别：100维的one-hot表示法最多可以表示100个单词，但是100维的分布式表示方法最多可以表示无数个单词。

分布式表示方法的好处：

①能计算词与词之间的相似度，能对词进行可视化

②解决了one-hot的稀疏问题

来源于贪心科技NLP讲解

原文：https://www.cnblogs.com/mj-selina/p/12853075.html

踩

(0)

评论一句话评论（0）

分享档案

更多>