首页 > 其他 > 详细

中文信息处理-2-传统机械分词

时间:2021-04-02 17:26:33      阅读:33      评论:0      收藏:0      [点我收藏+]
自动分词-传统方法

基本问题

相比于英文分词:

  • 中文中最小单位是字,英文为单词(有意义);
  • 中文中具有意义的最小单位是词(含单字词);
  • 中文中字与字或词与词之间没有明显的界限

分词规范

常用分词规范:

  • 《信息处理用现代汉语分词规范》GB13715-92
  • 《资讯处理用中文分词规范》台湾中研院 1997
  • 《现代汉语语料库加工规范——词语切分与词性标注》北大计算语言研究所 俞士汶等 1999

现代汉语预料库加工规范:切分规范;切分和标识相结合的规范;标识规范

一般的分词准则:

  • 切分单位
  • 人名和地名
  • 数量词
  • 重叠:AABB AAB ABB词型
  • 附加:例如老张、求职者
  • 复合:例如前院、后天

方法概述

根据使用资源不同可以分为:

非语料库 语料库
词典 机械分词 混合分词
非词典 自分割切词 统计分词(基于统计或者机器学习)

传统分词方法:基于词典的机械分词

基于统计/机器学习的分词方法:

  • 利用序列标注的思想进行分词:用机器学习算法学习字的序列标注(字在词中的位置信息),然后再根据序列标注组成分词结果
  • 最大熵分词(ME)
  • 基于条件随机场的分词(CRF)
  • 基于LSTM的分词
  • 以上方法结合的分词方法

机械分词

构造词典,需要从以下三个方面考虑:

  • 查询速度:匹配算法效率的直接决定因素
  • 存储利用率:分词词典设计小
  • 维护效能:插入、删除、更新等操作的难易程度

机械分词的算法:

  • 正/逆向最大匹配
  • 正/逆向最小匹配
  • 邻近匹配
  • 最短路径匹配

正/逆向最大匹配

  • 正向最大匹配

MAXL表示最大词长,按照从左到右的顺序,首先从汉字串中取长度为MAXL的子串查词典。若词典中存在这个词,则切分出该子串,指针后移 MAXL 个汉字后继续切分,否则,子串长度减一,再与词典匹配。若长度为2的子串还不能在词典中查到,则取当前汉字为词(单字词),指针后移一个汉字继续匹配。

他们明天来上海

他们明天 -> 他们明 -> 他们 :查询到

明天来上海 -> 明天来上 -> ....

  • 逆向最大匹配

与前者区别在于抽取顺序,从汉字串尾端开始抽取

技术分享图片

正/逆向最小匹配

  • 正向最小匹配

按照从左到右的顺序,首先从汉字串中取长度为2的子串查词典。若词典中存在这个词,则切分出该子串,指针后移2个汉字,否则,子串长度逐次加一继续匹配。若一直到长度为MAXL的子串仍无法匹配,则切分出当前汉字。

  • 逆向最小匹配

与前者区别在于抽取顺序,从汉字串尾端开始抽取

正向最小匹配过程 :

他们 明天 来上 来上海 来 上海

来上海已经是当前最长的字串,无法匹配。切分最左端的汉字为单字

逆向最小匹配过程:

上海 天来 明天来 们明天来 来 明天 他们

技术分享图片

邻近匹配

设待切分中文字串\(C_0C_1...C_{n-1}\),根据\(C_0C_1\)得到所有以此为首的词条集合\(W\)(如果\(C_0C_1\)存在,也属于这个集合)。如果\(W\)为空,则将\(C_0\)切分出来,否则切出满足\(W\)集合中匹配文本的最长字串。

再将剩余子串作为新的待切分串进行同样的处理。

本质上是改进的正向最大匹配,以降低时间复杂度。

举例:

词典片段:为了 为此 奥运 奥运会 健儿 加油 加油站

待分串:为奥运会健儿加油啊

  1. 为奥,集合W为空。切分出 ”为“
  2. 奥运,集合\(W=\{奥运,奥运会\}\)。切分出奥运会。
  3. 后同理

技术分享图片

最短路径匹配

设待分中文字串\(C_1C_2...C_n\),建立建立一个结点数为n+1的切分有向无环图G,各结点编号依次为\(V_0,V_1...V_{n}\),通过以下两种方式建立所有可能的词边:

  1. 相邻阶段\(V{k-1},V{k}\)之间建立有向边\(<V_{k-1},V_{k}>\),对应词\(C_K\),边的权重为\(L_k=Ln(k)-ln(k_i)\),其中\(K\)为词典所有词的词频,\(k_i\)\(C_k\)出现的词频,默认为1
  2. \(w=C_iC_{i+1}...C_j\)为字典中的登陆词,则简单\(V_{i-1}V{j}\)之间建立有向边\(<V_{i-1},V_{j}>\),对应该登陆词。权重如上述公式。
  3. 利用Dijkstra算法求出有向图G的最短路径,路径为词串切分结果

技术分享图片

为什么机械分词几种方法间相似,却需要这么多分词方法:

为了发现歧义。多种分词结果对比,如果相同则说明没有歧义。

中文信息处理-2-传统机械分词

原文:https://www.cnblogs.com/tlam/p/14610263.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!