引自Fabian Suchanek的讲义。
总结:介绍了DIPRE算法,即利用模式提取和模式应用实现事实提取来得到新fact,并不断把fact添加至KB,再得到新fact来使KB扩张,我们要清楚模式提取和模式应用的方法,及DIPRE算法可能遇到的的问题。
事实提取Fact Extraction :是从语料库提取事实的过程
这么做的原因:对于电脑来说文本很难懂incomprehensible,尤其是有些时候文本是由不同国家的语言写的,所以提取出来fact,有结构,变成编使电脑也懂得东西,并且更好的定义实体之间的关系。
模式提取Extraction Pattern:有两个占位符placeholder,有r即关系,表示的是X和Y的满足此二元关系
例如: X—bornin--> Y 的一个Pattern是 X kommt aus Y
如何找到patterns:手动编译语料库,手动提取,用算法做pattern推理
pattern推理Pattern Deduction:从给出的KB中找extraction pattern并把extraction pattern应用在KB中产生facts的过程
例如:corpus Angela Merkel stammt aus Hamburg. Sie ist seit 2005 Kanzlerin von Deutschland und. 从corpus中得到:“X stammt aus Y” 是 bornIn(X,Y)的pattern,那么stammt aus(X,Y)可以作为新的relation应用KB中,继续找新的事实。
@font-face { font-family: "Cambria Math"; }@font-face { font-family: "DengXian"; }@font-face { font-family: "@DengXian"; }p.MsoNormal, li.MsoNormal, div.MsoNormal { margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman"; }.MsoChpDefault { font-family: DengXian; }div.WordSection1 { }
Pattern Application:通过pattern找到facts的过程
Pattern Iteration 或 DIPRE算法:执行pattern推理来找到新patterns即新的可用于corpus上的relation,以此找到新的fact,把新facts添加至KB,重复此过程扩张KB
小练习:扩张KB
KB:Obama—chase-->Osama
Corpus:Obama hetzt Osama. Tom jagt Jerry. Tom hetzt Jerry.
可得:hetzt是chase的pattern,所以hetzt的含义是chase
我们把hetzt应用在corpus中,可得Tom –hetzt--> Jerry
所以我们可以知道Tom –chase--> Jerry,把这个添加至KB中
我们看到Tom jagt Jerry,可得jagt是chase的pattern
所以最终KB为:
Obama—chase-->Osama
Tom—chase-->Jerry
提取pattern会遇到的问题:二义性
KB为Obama—chase-->Osama
Corpus为Obama verfolgt Osama.
所以此时我们无法判断到底verfolgt(X,Y)是chase(X,Y) 还是loves(X,Y)的pattern,因为奥巴马的老婆的标签也为奥巴马。
此时需要神奇的Disambiguation。
Pattern的可信度Confidentiality of pattern:
- 若pattern是由已知mostly known 事实提取出来的例如原KB中的东西提取出来的,则可信度高 safe
- 若是由新pattern提取出来的,则可信度低 risky
可信度 = safe的/risky的