通用概念知识图谱指由实体(比如“刘德华”)、概念(比如“演员”),实体与概念之间的类属关系(又称isA关系,比如 “刘德华 isA 演员”),概念与概念之间的 subclass of 关系(比如 “电影演员”是“演员”的子类)组成的图谱。通常后面两类关系,又统称为 isA 关系。如果 A isA B,通常称A为B的下位词(hyponym),或者B为A的上位词(hypernym)。
1.搜索意图理解
用户搜索“西游记”,我们通过它的概念“中国古代四大名著”、“小说”可以理解用户是在搜索小说类名著。对于用户搜索意图的精准理解可以进一步帮助改进检索、排序与推荐。
2.实体相似性判断
当用户需要判断“复旦大学”和“上海交大”是否相似时,仅仅根据字面相似性,很难知道它们是相似实体。但是通过概念知识图谱,我们可以看到它们的概念是差不多的,从而可以判断它们在语义上是相似的。
3.可解释实体推荐
当用户先后搜索“复旦大学”、“上海交通大学”,“上海理工大学”时,我们人类可以自然地推断用户是在搜索上海高校。如今,机器通过检索概念知识图谱,发现这三个实体共享“上海高校”这个概念,从而也可以准确识别用户的搜索意图,进一步推荐“上海外国语大学”,“同济大学”等实体,并给出用户是在搜索上海高校这一解释。
http://www.bigcilin.com/WSDTest/?q=
语言:中文
分类体系(schema):人工构建
组成:实体、上位词、上下位关系、同义词关系、实体属性。
存储:关系数据库
http://shuyantech.com/cnprobase/search
语言:中文
分类体系(schema):双层,”类别-实例“,以百度百科的词条标签作为类别
数据:主要利用百度百科的词条标签作为类别,下图是其图谱数据与PKUBASE的pkubase-types.txt数据的对照
存储:Neo4j
语言:中文、英文
分类体系(schema):使用百度百科、维基百科的分类体系,如:http://baike.baidu.com/fenlei/艺术、https://zh.wikipedia.org/wiki/Category:周杰伦
组成:概念表、实例表、属性表、实例摘要文本、信息框、上下位关系、相关关系、跨语言链接、URL
数据:百度百科、中文维基百科、英文维基百科
存储:类似关系数据库
https://concept.research.microsoft.com/
语言:英文
分类体系(schema):双层,”类别-实例“
组成:概念表、实例表、上下位关系(IsA)表
存储:不详
语言:多语言
分类体系:URI hierarchy https://github.com/commonsense/conceptnet5/wiki/URI-hierarchy
数据:ConceptNet 5、DBPedia(infoboxes)、Wiktionary(multilingual dictionary,synonyms、antonyms、translations)、WordNet、OpenCyc(high-level ontology)、Verbosity
存储:PostgreSQL
原文:https://www.cnblogs.com/haodingkui/p/11353807.html