再构建event graph, 不免要用到event extraction的方法,这里引用了一篇别人的总结作为参考学习
https://www.cnblogs.com/cyandn/p/10915394.html
关系抽取
定义:自动识别实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取(两个实体)和多元关系抽取(三个及以上实体)。
通过关注两个实体间的语义关系,可以得到(arg1, relation, arg2)三元组,其中arg1和arg2表示两个实体,relation表示实体间的语义关系。
根据处理数据源的不同,关系抽取可以分为以下三种:
根据抽取文本的范围不同,关系抽取可以分为以下两种:
根据所抽取领域的划分,关系抽取又可以分为以下两种:
限定域关系抽取方法:
其中基于机器学习的关系抽取方法又可分为 有监督 和 弱监督。
有监督的关系抽取方法:
弱监督的关系抽取方法:不需要人工标注大量数据。
距离监督:用开放知识图谱自动标注训练样本,不需要人工逐一标注,属弱监督关系抽取的一种。
开放域关系抽取方法:
不需要预先定义关系类别,使用实体对上下文中的一些词语来描述实体之间的关系。
总结:
限定域关系抽取是目前研究的主流方向。
传统的基于模板的关系抽取方法可扩展性差,基于机器学习的关系抽取方法是目前研究的热点。
基于有监督学习的关系抽取需要人工标注大量训练数据,耗时费力,基于弱监督学习的关系抽取得到了越来越多的关注。
事件抽取
定义:从描述事件信息的文本中抽取出用户感兴趣的事件并以结构化的形式呈现出来。
步骤:首先识别出事件及其类型,其次要识别出事件所涉及的元素(一般是实体),最后需要确定每个元素在事件中所扮演的角色。
事件抽取相关概念:
限定域事件抽取:在进行抽取之前,预先定义好目标事件的类型及每种类型的具体结构(包含哪些具体的事件元素),通常会给出一定数量的标注数据。
限定域事件抽取方法:
开放域事件抽取:在进行事件识别之前,可能的事件类型以及事件的结构都是未知的,因此该任务通常没有标注数据,主要基于无监督的方法和分布假设理论。
分布假设理论:如果候选事件触发词或者候选事件元素具有相似的语境,那么这些候选事件触发词倾向于触发相同类型的事件,相应的候选事件元素倾向于扮演相同的事件元素。
开放域事件抽取方法:
事件关系抽取,以事件为基本语义单元,实现事件逻辑关系的深层检测和抽取,包括:
总结:
组织和构建同时包含实体、实体关系、事件、事件关系的事件知识图谱得到了越来越多的关注。
原文:https://www.cnblogs.com/chenyusheng0803/p/11574318.html