中文分词常用方法

时间：2020-07-04 12:07:57 阅读：53 评论：0 收藏：0 [点我收藏+]

https://www.jianshu.com/p/6c085bf1086f

中文分词

将一句话分解成一个个词，英文中可以用空格来做，而中文需要用一些技术来处理。

三类分词算法：

1. 基于字符串匹配：

将汉字串与词典中的词进行匹配，如果在词典中找到某个字符串，则识别出一个词。
优点，速度快，都是O(n)时间复杂度，实现简单。
缺点，对歧义和未登录词处理不好。

此类型中常用的几种分词方法有：

①正向最大匹配法：

假设词典中最大词条所含的汉字个数为n个，取待处理字符串的前n个字作为匹配字段。若词典中含有该词，则匹配成功，分出该词，然后从被比较字符串的n+1处开始再取n个字组成的字段重新在词典中匹配；如果没有匹配成功，则将这n个字组成的字段的最后一位剔除，用剩下的n一1个字组成的字段在词典中进行匹配，如此进行下去，直到切分成功为止。（链接：http://www.jianshu.com/p/e978053b0b95）

②逆向最大匹配法：

与正向的区别在于如果匹配不成功则减去最前面的一个字。

③最少切分

使每一句中切出的词数最少。

2. 基于理解：

通常包括三个部分：分词（用来获得有关词）、句法语义（利用句法和语义信息来对分词歧义进行判断）、总控。

3. 基于统计：

对语料中相邻共现的各个字的组合的频度进行统计，将概率最大的分词结果作为最终结果。常见的模型有HMM和CRF。

优点，能很好处理歧义和未登录词问题。
缺点，需要大量的人工标注数据，以及较慢的分词速度。

中文分词常用方法

原文：https://www.cnblogs.com/hbuwyg/p/13234415.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)