数学之美第4章谈谈中文分词

时间：2014-03-20 18:31:25 阅读：516 评论：0 收藏：0 [点我收藏+]

数学之美第4章谈谈中文分词

我们直接进入主题吧！

中文分词的演变：

1. 第一个中文分词就是 “查字典”方法，就是把句子从左到右顺序扫描一遍，遇到字典里的词就标示出来，遇到复合型词汇就采用最长匹配原则，遇到不认识或者无法分得词汇呢就采用单字词的模式，这样基本上也覆盖了七八成的中文分词结果了。唯一的缺点：遇到二义性也就是歧义性的词汇是就无能为力了。

2. 采用统计的方法：笨点的方法就是我们把一个句子可能性的几种情况全部列出来，然后根据语料库中的前后词汇关系统计概率，看看哪种句子存在的可能性最大就是哪种分法，但是这种方法无异于穷举，最终会浪费很多的时间啊。所以我们采用动态规划来逐步的合成概率的句子：这种方法叫做维特比算法。

2 延伸阅读：工程上的细节问题

2.1 分词的一致性及词的颗粒度和层次

就是具体问题具体分析比如说”清华大学“，如果是在机器翻译中，就要颗粒度越大越好”清华大学“，如果是在网页搜索的话，颗粒度越小越好的”清华“ ”大学“这样子，一般情况我们都是建立两个表 ”

一个是基本词表（颗粒度小的）

一个是复合词的词表（颗粒度大的）

2.2 分词的不一致性

分词的不一致性分为两种：错误和颗粒度不一致

错误：分为一类：越界型错误比如说 ‘北京大学生’ 分成 ‘北京大学生’

另外一类：覆盖型错误比如说“贾里尼克”被拆成了“贾里尼克”四个字

所以我们编程的时候尽量保持分词的一致性比较好，当然他也不能被看成是一种错误的。

原文：http://blog.csdn.net/lch614730/article/details/21612719

踩

(0)

评论一句话评论（0）

分享档案

更多>

数学之美 第4章 谈谈中文分词