论文基本信息
- 2013 | ICLR | Efficient Estimation of Word Representations in Vector Space | Tomas Mikolov et al.
背景
- 将词表示成词汇中的索引,没有词之间相似性的概念
- 优点:简洁性、鲁棒性、在大量数据上训练的简单模型优于在更少数据上训练的复杂系统
- 一个例子是N-gram模型,用于统计语言建模
- 在许多任务上受到限制
- 用于自动语音识别automatic speech recognition的相关领域内in-domain数据量是有限的,性能通常由高质量转录transcribed语音数据的大小(通常只有数百万词)决定
- 在机器翻译中,现有的许多语言的语料库只包含几十亿个词或更少
- 因此,在有些情况下,简单地扩大scaling up基本技术不会带来任何重大进展,我们必须把重点放在更先进的技术上
- 机器学习技术的发展使得在更大数据集上训练更复杂的模型成为可能,一般优于简单模型。最成功的概念是使用词的分布式表示distributed representations
提出的方法
- 提出两个新奇的模型架构来从非常大的数据集中计算词的连续向量表示
- 期望相似的词不仅趋向于彼此接近,而且词可以有多个相似性multiple degrees of similarity
实验
- 词相似性任务:衡量表示的质量
- 衡量句法和语义词相似性syntactic and semantic word similarities
Word2Vec
原文:https://www.cnblogs.com/yao1996/p/14394689.html