总算是到正题上了。。。
词义消歧,亦称语义消歧,是计算语言学领域的基础性关键研究课题。
对于许多词语(特别是汉语词语和一部分专有名词),一个词有许多种意思。
例如专有名词"卡特",我们可以找到非常出名的两种含义:
1. 文斯·卡特(Vince Carter),美国职业篮球运动员
2. 詹姆斯·厄尔·卡特,1977年任美国第39任总统。
以及非常多的其他含义,包括:考古学家,斯诺克选手,记者,公司以及。。。LOL人物(汗)
如果查询的是"詹姆斯"之类的专有名词,则含义会变得更多,而且纷繁复杂。
除去专有名词,一些普通名词会有一些大相径庭的意思。
比如"仪表",同时表示了"人的外表"(appearance)、"各种测定仪"(meter)两种含义。
当然不可能我们在读到的时候随机一个含义(虽然有一定的概率随机到的含义是对的2333)
当一个人读到一个单词的时候,他是无意识或有意识的定向到该词一个特定意思上去的。
但是计算机,就不能够做到这一点(恩,废话),于是我们需要通过特定的好的算法来找到合适的意思,这就是消歧的作用。
好了词义消歧介绍完毕。(雾!其实是才开始的说。。。)
先说说词义消歧的重要性:"词义消歧是计算语言学领域的基础性关键研究课题,作为一个"中间任务",直接关系到信息检索、机器翻译、文本分类、语音识别等语言处理应用系统的效率和成败。然而,正如Ids和Veronis(1998)所指出的那样,虽然历经半个多世纪的努力,词义消歧研究并没有取得突破性进展 。现在10个春秋又逝去了,词义消歧依然是学人们孜孜以求攻克的难关 。"[1]
在这个词义消歧研究中,关涉到的三个主要问题是:资源、方法与评测。
(1)资源
资源,指每个词意思的来源,在研究中主要是语义词典和词义标注语料库。(反正我的研究是从百度百科上爬的资料)
语义词典静态地描述了词语的义项区分,词义标注语料库动态地呈现了不同义项在真实文本中的使用状况。
"确定哪种算法更有效并不是词义消歧研究中最紧要的问题,围绕词义消歧的知识源研究才是最关键最重要的问题,是国内外相关研究的热点。"[2]
(但是。。。作为没有大数据且只会搞简单的算法竞赛的沙茶,我只能专注于算法方面的改进)
(2)方法
半个多世纪的研究在词义消歧领域积累了丰富的方法,然后嘛。。我用的是最简单方法先搞一搞啦,就是余弦相似度的方法。
现在需要知道一个特征词w的具体意思。从现有的语料库中找到该特征词的不同词义的语段,与此特征词所在的待比较的语段进行相似度的对比。
词义越接近,相似度越高。我们取一个阀值作为标准,于是可以获取特征词在语段中的具体词义。
(3)评测
对词义消歧系统的评测曾一度是个比较困难的问题。这是由于选择的目标多义词不同、依据的语义词典不同、基于的词义标注语料不同、面向的应用目标不同(例如应用于信息检索或应用于机器翻译),很难评价与对比不同词义消歧系统的性能。本文就不进行详细描述了,可以参见"enseval国际词义消歧竞赛"。
语义消歧是自然语言理解课题中的一道难关,虽然经过大量学者半个多世纪的努力,但是结果还是不太尽人意。
而且,如何将词义消歧这个"中间过程"有效嵌入语言应用系统,提高应用系统的最终性能,也是词义消歧研究者努力的方向之一。例如,我的消歧算法的目的是嵌套在末尾研究生的新闻标注系统之中,于是乎对于专有名词的词义理解的重要性就远远超过了对于普通名字词义理解的重要性了。
[1] : 引用自《词义消歧研究:资源 、方法与评测》 北京大学 吴云芳
[2] : 引用自《词义消歧研究:资源 、方法与评测》 北京大学 吴云芳
原文:http://www.cnblogs.com/rausen/p/4145184.html