1、建模
语言模型的目的是描述文字序列出现的规律,这个对问题建模的过程被称作是语言建模;
n-gram只和它前面的n-1个词相关,根据这n-1生成第n个词;
n-gram在分词、文本生成、信息检索、摘要等NLP任务中都有着举足轻重的地位,包括与训练模型本质上也是统计语言模型;
强调:统计语言模型为解决NLP问题提供了非常好的思路,即:将整个序列生成的问题转化为逐个生成单词的问题;
2、未登录词
未出现在过语料中的词。为解决未登录词引起的零概率问题,通常对模型进行平滑处理,即给出可能情况一个非零的概率。“劫富济贫”,即从高概率的部分分配一部分到概率,从而达到平滑的目的。
平滑算法:
(1)加法平滑方法:即给词出现的次数加上一个固定数;优点:简单;
(2)古德-图灵估计法:(没学会)
(3)Kneser-Ney平滑方法:(没学会)
《机器翻译 统计建模与深度学习方法》 __肖桐 学习第六天 【机器翻译基础】
原文:https://www.cnblogs.com/xiaonezhaya/p/13480157.html