首页 > 其他 > 详细

深度学习处理文本数据

时间:2020-04-26 19:39:26      阅读:87      评论:0      收藏:0      [点我收藏+]

与处理图像一样,也是首先要文本向量化,模型只能作用于文本tensor。

 

分词方法:

1文本分割为单词(分解得到的单元称为标记:token)————分词过程

2文本分割为字符(分解得到的单元称为标记:token)————分词过程

3利用 词袋法(bag of words ) 提取单词或字符的n-gram,并将n-gram转换成一个向量。n-gram是多个连续单词或字符的集合。————传统的特征工程手段

 

文本向量化方法:

1.one-hot编码:得到的向量是二进制的,稀疏的,高纬度,硬编码

2.词嵌入(词向量):word embedding (word2vector),低微的浮点数向量,密集。比如每个单词用一个长度为8 的浮点向量表示。

 

直接用随机向量取拟合token到向量的映射:显然难度很大,因为很机械,无法保持单词之间的距离的意义,甚至嵌入空间中的特定方向也是有用的。

理想词嵌入空间:尚未发现。

合理做法:对每个新任务学习一个新的嵌入空间。

 

深度学习处理文本数据

原文:https://www.cnblogs.com/Henry-ZHAO/p/12781612.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!