数学之美 第4章 谈谈中文分词
我们直接进入主题吧!
中文分词的演变:
1. 第一个中文分词就是 “查字典”方法,就是把句子从左到右顺序扫描一遍,遇到字典里的词就标示出来,遇到复合型词汇就采用最长匹配原则,遇到不认识或者无法分得词汇呢就采用 单字词的模式,这样基本上也覆盖了七八成的中文分词结果了。
唯一的缺点:遇到二义性也就是歧义性的词汇是就无能为力了。
2. 采用统计的方法:笨点的方法就是我们把一个句子可能性的几种情况全部列出来,然后根据语料库中的前后词汇关系统计概率,看看哪种句子存在的可能性最大就是哪种分法,但是这种方法无异于穷举,最终会浪费很多的时间啊。所以我们采用
动态规划来逐步的合成概率的句子:这种方法叫做 维特比算法。
2 延伸阅读:工程上的细节问题
2.1 分词的一致性及词的颗粒度和层次
就是具体问题具体分析 比如说”清华大学“,如果是在机器翻译中,就要颗粒度越大越好”清华大学“,如果是在网页搜索的话,颗粒度越小越好的”清华“ ”大学“这样子,一般情况我们都是 建立两个表 ”
一个是 基本词表(颗粒度小的)
一个 是 复合词的词表 (颗粒度大的)
2.2 分词的不一致性
分词的不一致性 分为 两种 :错误 和 颗粒度不一致
错误:分为 一类:越界型错误 比如说 ‘北京大学生’ 分成 ‘北京大学 生’
另外 一类:覆盖型错误 比如说“贾里尼克”被拆成了“贾 里 尼 克”四个字
所以我们编程的时候尽量保持 分词的一致性比较好,当然他也不能被看成是一种错误的。
数学之美 第4章 谈谈中文分词,布布扣,bubuko.com
数学之美 第4章 谈谈中文分词
原文:http://blog.csdn.net/lch614730/article/details/21612719