首页 > 编程语言 > 详细

NLP-06 语言技术 词性 / POS Tagging 概率图模型

时间:2020-08-28 23:05:27      阅读:116      评论:0      收藏:0      [点我收藏+]

https://www.bilibili.com/video/BV1kE411G7qo?p=6

 

1. 词性标签

技术分享图片

 

  Wind  v/n     protest  v/n技术分享图片

 

  1)人为将词性(及物动词,不及物动词,名词复数,连词,标点)标注好后,进行语料库训练   

技术分享图片

 

     

  同词有不同的词性,意义

  例如 file : 文件夹;搓子

技术分享图片

 

   2)构词方式

  Rule-Based 指的是使用规则或语法: 名字后面接 形容词动词 等等; 但是不准确,被放弃了

 

   技术分享图片

 

   

  技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 

技术分享图片

 

   3)通过统计 ‘still‘前面那个词的词性频率,来判断still词性

   观察词性对,条件概率技术分享图片

 

2. 隐马尔科夫模型

  1)简介

  技术分享图片

 

   2)From mixture Model to HMM

  伯努利分布:二项分布技术分享图片

 

     

  3) 有几种硬币,现已知这些硬币的前一系列取值,预测下一次是正面的概率

  如果只有一种硬币: P = c(正) / c(正) + c(反)

  但有多种硬币: Expectation Maximum

技术分享图片

 

 

  4)Expectation Maximization

    Π: 红色硬币占比

    P:红色硬币朝上概率

    Q:绿色硬币朝上概率

    问: 下一次硬币朝上概率是多少? 且不知道下一次硬币的颜色

    由于我们不知道硬币的状态,引入隐藏状态 Z 技术分享图片

 

 技术分享图片

 

 

技术分享图片

 

   这里的P(x)为伯努利混合模型的核心公式

技术分享图片

 

   不知道这个H T 是红色硬币还是绿色掷出来的后 可以用 u(x)来估计

技术分享图片

 

 

  问: 如果已知所有样本的u(样本为红色的比率/概率) 求 Π(红色硬币占总硬币比例) p(红色H比例) q(绿色H比例)

  技术分享图片

 

 

  给定u(t+1)时刻,求 Π p q ;再递归通过 Π p q求u(t+2)

技术分享图片

 

 

 

  4) 高斯混合模型

  技术分享图片

 

 

 

  5) HMM 

  右下图是第一天晴天雨天下,第二天晴天雨天的概率

  由上图是晴天雨天下,观察到的人的活动,Walk或者Clean

  由于影响行动的天气状态不可观测(Hidden),所以叫隐马尔科夫链

  能观察到的只有Action

  能学习的有 transitional probability (右下图) 技术分享图片

 

 

  6)假设有三个正态分布,

 

技术分享图片

 

 

  7) Pos Tagging 

  基于EM算法技术分享图片

 

 

技术分享图片

 

 

 

  8)词性转移矩阵,词性释放矩阵

  技术分享图片

 

     技术分享图片

 

   技术分享图片

 

NLP-06 语言技术 词性 / POS Tagging 概率图模型

原文:https://www.cnblogs.com/ChevisZhang/p/13579079.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!