首页 > 其他 > 详细

NLP(五)

时间:2020-07-02 16:52:13      阅读:51      评论:0      收藏:0      [点我收藏+]

 

训练数据中出现了没见过的数据

Good-Turning Smoothing

假设你在钓鱼,已经抓到了18只鱼:10条鲤鱼,3条黑鱼,2条刀鱼,1条鲨鱼,1条草鱼,1条鳗鱼......

下一个钓到的鱼是鲨鱼的概率?

18条鱼中有一条鲨鱼,1/18

 

下一条鱼是新鱼种(之前没出现过)的概率是多少?

近似的方法,用目前为止钓到一条的鱼来去近似未来新鱼种的概率。钓到1条鲨鱼,1条草鱼,1条鳗鱼,因此近似为3/18

 

既然如此,重新想一下,下一条抓到的鱼为鲨鱼的概率是多少?

第一题的时候,暗含了假定就是六种鱼占满了整个概率空间,概率相加为1,第二题我们扩充了新鱼种,因此六种鱼概率相加小于1,抓到鲨鱼的概率小于1/18

技术分享图片

 

 技术分享图片

 

 c草鱼出现了几次,出现了1次,c=1

N总共出现的个数

可以根据自己的数据和词典构建一个表

技术分享图片

 

 

 

使用语言模型生成句子

语言模型是生成模型

根据该模型可以生成新的数据

词库,经过语言模型的训练后,得出了每个单词的概率

技术分享图片

 

 生成句子

一个一个单词的选,6次循环后可能是

技术分享图片

 

 也有可能恰好生成

技术分享图片

 

 都是随机的,不考虑上下文

 

Bigram

矩阵,最后一列是终止符号

技术分享图片

 

 假定第一个单词I,第二个单词去I这行里寻找概率最大的,是like,然后去like行里找概率大的,studying

 

NLP(五)

原文:https://www.cnblogs.com/aidata/p/13225636.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!