基于统计的中文分词算法1：n元模型

时间：2020-07-04 13:43:34 阅读：58 评论：0 收藏：0 [点我收藏+]

基于词的n元语法模型是一个典型的生成式模型，早期很多统计分词均以它为基本模型，然后配合其他未登录词识别模块进行扩展。

其基本思想是：首先根据词典(可以是从训练语料中抽取出来的词典，也可以是外部词典)对句子进行简单匹配，找出所有可能的词典词，然后，将它们和所有单个字作为结点，构造的n元切分词图，图中的结点表示可能的词候选，边表示路径，边上的n元概率表示代价，最后利用相关搜索算法(动态规划)从图中找到代价最小的路径作为最后的分词结果。