首页 > 其他 > 详细

<知识库的构建> 5-1 事实提取 Fact Extraction

时间:2018-01-30 11:43:03      阅读:169      评论:0      收藏:0      [点我收藏+]

引自Fabian Suchanek的讲义。

 

总结:介绍了DIPRE算法,即利用模式提取和模式应用实现事实提取来得到新fact,并不断把fact添加至KB,再得到新fact来使KB扩张,我们要清楚模式提取和模式应用的方法,及DIPRE算法可能遇到的的问题。

 

事实提取Fact Extraction :是从语料库提取事实的过程

这么做的原因:对于电脑来说文本很难懂incomprehensible,尤其是有些时候文本是由不同国家的语言写的,所以提取出来fact,有结构,变成编使电脑也懂得东西,并且更好的定义实体之间的关系。

 

模式提取Extraction Pattern:有两个占位符placeholder,有r即关系,表示的是X和Y的满足此二元关系

例如: X—bornin--> Y 的一个Pattern是 X kommt aus Y

 

如何找到patterns:手动编译语料库,手动提取,用算法做pattern推理

pattern推理Pattern Deduction:从给出的KB中找extraction pattern并把extraction pattern应用在KB中产生facts的过程

       例如:corpus Angela Merkel stammt aus Hamburg. Sie ist seit 2005 Kanzlerin von Deutschland und. 从corpus中得到:“X stammt aus Y” 是 bornIn(X,Y)的pattern,那么stammt aus(X,Y)可以作为新的relation应用KB中,继续找新的事实。

 

@font-face { font-family: "Cambria Math"; }@font-face { font-family: "DengXian"; }@font-face { font-family: "@DengXian"; }p.MsoNormal, li.MsoNormal, div.MsoNormal { margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman"; }.MsoChpDefault { font-family: DengXian; }div.WordSection1 { }

Pattern Application:通过pattern找到facts的过程

Pattern Iteration 或 DIPRE算法:执行pattern推理来找到新patterns即新的可用于corpus上的relation,以此找到新的fact,把新facts添加至KB,重复此过程扩张KB

小练习:扩张KB

KB:Obama—chase-->Osama

Corpus:Obama hetzt Osama. Tom jagt Jerry. Tom hetzt Jerry.

可得:hetzt是chase的pattern,所以hetzt的含义是chase

我们把hetzt应用在corpus中,可得Tom –hetzt--> Jerry

所以我们可以知道Tom –chase--> Jerry,把这个添加至KB中

我们看到Tom jagt Jerry,可得jagt是chase的pattern

所以最终KB为:

Obama—chase-->Osama

Tom—chase-->Jerry

 

提取pattern会遇到的问题:二义性

技术分享图片

 

KB为Obama—chase-->Osama

Corpus为Obama verfolgt Osama.

所以此时我们无法判断到底verfolgt(X,Y)是chase(X,Y) 还是loves(X,Y)的pattern,因为奥巴马的老婆的标签也为奥巴马。

此时需要神奇的Disambiguation。

 

Pattern的可信度Confidentiality of pattern:

-      若pattern是由已知mostly known 事实提取出来的例如原KB中的东西提取出来的,则可信度高 safe

-      若是由新pattern提取出来的,则可信度低 risky

可信度 = safe的/risky的

<知识库的构建> 5-1 事实提取 Fact Extraction

原文:https://www.cnblogs.com/mengzizhao/p/8379962.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!