An empirical study of instance-based ontology matching笔记整理
一、 论文整理思路流程
1) 给出两个实体S(source)和T(target),目标是找到一个三元组(S,T,R)其中R是S和T之间的关系,R的种类包括{≡ ,?,?,⊥}这四类(相等、属于、重叠、不相交)。
2) 实现实例的实体匹配目标主要考虑两个实体的实例集的重叠部分。
3) 基于实例的匹配嫉妒依赖实体的概念的形式,必须考虑不同形式阐述的同一概念。首要考虑的是这个概念是仅仅由它的实例集单独标注还是由它的实例集以及实例的扩展标注的。
4) 其次,考虑到现实中实例错误标注、数据分散、歧义概念等问题,计算重叠程度就十分困难,因此我们使用其他的衡量标准进行评估:即先使用其他的衡量标准计算两个实例集的相关度,随后考虑使用统计得到的阈值来排除不可靠的信息。
1) Jaccard:用于衡量少量由两个概念同时标注,而这两个概念又是包含关系的实例。最终计算的是两个概念的实例集的重叠比例
2) Corrected Jaccard:在Jaccard的基础上,为了给出现次数少的实例标记较低的分数,
3) PMI:Pointwise Mutual Information,为了降低一个概念的标注需要另一个概念的标注的不确定性,N是被标记的实例数量
4) Log相似率
5) 信息获得熵
1) gold standard:使用人工标注得到gold standard
2) 平均精确度:Ni是评估得到前i个匹配的匹配实例数量,Ngoodi是其中匹配正确的数量
3) 近似召回率
4) F标准:
1) 新插入的匹配结果如何影响最终匹配结果
2) 阈值选择的影响是什么
3) 使用扩展的概念信息有何影响
4) 基于实例的匹配的最佳衡量标准选择是什么
二、 论文创新点
基于对荷兰国家图书馆应用程序进行的大量实验,提出了基于实例的匹配的实证研究。
为基于实例的实体匹配方法比较了5种常见的基于相似度的衡量方法以及阈值和层次信息的使用,通过实验找出最佳的衡量方法的组合
原文:https://www.cnblogs.com/hwx1997/p/12444121.html