中文信息处理-2-传统机械分词

时间：2021-04-02 17:26:33 阅读：39 评论：0 收藏：0 [点我收藏+]

自动分词-传统方法

基本问题
分词规范
方法概述
机械分词

基本问题

相比于英文分词：

中文中最小单位是字，英文为单词(有意义)；
中文中具有意义的最小单位是词(含单字词)；
中文中字与字或词与词之间没有明显的界限

分词规范

常用分词规范：

《信息处理用现代汉语分词规范》GB13715-92
《资讯处理用中文分词规范》台湾中研院 1997
《现代汉语语料库加工规范——词语切分与词性标注》北大计算语言研究所俞士汶等 1999

现代汉语预料库加工规范：切分规范；切分和标识相结合的规范；标识规范

一般的分词准则：

切分单位
人名和地名
数量词
重叠：AABB AAB ABB词型
附加：例如老张、求职者
复合：例如前院、后天

方法概述

根据使用资源不同可以分为：

	非语料库	语料库
词典	机械分词	混合分词
非词典	自分割切词	统计分词（基于统计或者机器学习）

传统分词方法：基于词典的机械分词

基于统计/机器学习的分词方法：

利用序列标注的思想进行分词：用机器学习算法学习字的序列标注（字在词中的位置信息），然后再根据序列标注组成分词结果
最大熵分词（ME）
基于条件随机场的分词（CRF）
基于LSTM的分词
以上方法结合的分词方法

机械分词

构造词典，需要从以下三个方面考虑：

查询速度：匹配算法效率的直接决定因素
存储利用率：分词词典设计小
维护效能：插入、删除、更新等操作的难易程度

机械分词的算法：

正/逆向最大匹配
正/逆向最小匹配
邻近匹配
最短路径匹配

正/逆向最大匹配

正向最大匹配

用MAXL表示最大词长，按照从左到右的顺序，首先从汉字串中取长度为MAXL的子串查词典。若词典中存在这个词，则切分出该子串，指针后移 MAXL 个汉字后继续切分，否则，子串长度减一，再与词典匹配。若长度为2的子串还不能在词典中查到，则取当前汉字为词（单字词），指针后移一个汉字继续匹配。

他们明天来上海

他们明天 -> 他们明 -> 他们：查询到

明天来上海 -> 明天来上 -> ....

逆向最大匹配

与前者区别在于抽取顺序，从汉字串尾端开始抽取

技术分享图片

正/逆向最小匹配

正向最小匹配

按照从左到右的顺序，首先从汉字串中取长度为2的子串查词典。若词典中存在这个词，则切分出该子串，指针后移2个汉字，否则，子串长度逐次加一继续匹配。若一直到长度为MAXL的子串仍无法匹配，则切分出当前汉字。

逆向最小匹配

与前者区别在于抽取顺序，从汉字串尾端开始抽取

正向最小匹配过程：

他们明天来上来上海来上海

来上海已经是当前最长的字串，无法匹配。切分最左端的汉字为单字

逆向最小匹配过程：

上海天来明天来们明天来来明天他们

技术分享图片

邻近匹配

设待切分中文字串\(C_0C_1...C_{n-1}\)，根据\(C_0C_1\)得到所有以此为首的词条集合\(W\)（如果\(C_0C_1\)存在，也属于这个集合）。如果\(W\)为空，则将\(C_0\)切分出来，否则切出满足\(W\)集合中匹配文本的最长字串。

再将剩余子串作为新的待切分串进行同样的处理。

本质上是改进的正向最大匹配，以降低时间复杂度。

举例：

词典片段：为了为此奥运奥运会健儿加油加油站

待分串：为奥运会健儿加油啊

为奥，集合W为空。切分出 ”为“
奥运，集合\(W=\{奥运，奥运会\}\)。切分出奥运会。
后同理

技术分享图片

最短路径匹配

设待分中文字串\(C_1C_2...C_n\)，建立建立一个结点数为n+1的切分有向无环图G，各结点编号依次为\(V_0,V_1...V_{n}\)，通过以下两种方式建立所有可能的词边：

相邻阶段\(V{k-1}，V{k}\)之间建立有向边\(<V_{k-1},V_{k}>\)，对应词\(C_K\)，边的权重为\(L_k=Ln(k)-ln(k_i)\)，其中\(K\)为词典所有词的词频，\(k_i\)为\(C_k\)出现的词频，默认为1
若\(w=C_iC_{i+1}...C_j\)为字典中的登陆词，则简单\(V_{i-1}V{j}\)之间建立有向边\(<V_{i-1},V_{j}>\)，对应该登陆词。权重如上述公式。
利用Dijkstra算法求出有向图G的最短路径，路径为词串切分结果

技术分享图片

为什么机械分词几种方法间相似，却需要这么多分词方法：

为了发现歧义。多种分词结果对比，如果相同则说明没有歧义。

中文信息处理-2-传统机械分词

原文：https://www.cnblogs.com/tlam/p/14610263.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)