首页 > 其他 > 详细

IK 歧义分析-A部分

时间:2018-12-10 15:28:40      阅读:159      评论:0      收藏:0      [点我收藏+]
今天看了一下IK的源代码,网上已经有很多文章,此文章是他们的补充。
比如有个字符串 “张三说的确实在理”, 经过分词后变成

第一部分: 张三 三(数词)
第二部分: 说的 的确 确实 实在 在理

其中第一部分是有交集的,于是可以进入judge阶段,最终“三”被PK下去,只留下了“张三”。 然后加入最优集合
this.pathMap.put(path.getPathBegin(), path);

第二部分也是有交集的,于是这5个词进入judge, 最终留下“说的” “确实” “在理”,三个词,然后加入最优集合。

最终将这两个部分的词加入结果集中
private LinkedList<Lexeme> results;

最终result集合经过数量词合并(合并英文数词+中文数词,英文数词+中文量词,中文数词+中文量词)及停词剔除,输入最终的分词结果。

IK 歧义分析-A部分

原文:http://blog.51cto.com/12597095/2328412

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!