人工智能应用基础
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.1 知识图谱的概念

4.1.1 知识图谱的定义

2012年,Google公司提出“知识图谱”的概念。从学术的角度讲,我们可以给知识图谱一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。但这有点抽象,所以换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-Relational Graph)。

那什么叫多关系图呢?学过数据结构的人都应该知道什么是图(Graph)。图是由节点(Vertex)和边(Edge)来构成的,但这些图通常只包含一种类型的节点和边。但相反,多关系图一般包含多种类型的节点和边。比如图4-2(a)表示一个经典的图结构,图4-2(b)则表示多关系图,因为图里包含了多种类型的节点和边。这些类型由不同的颜色来标记。

图4-2 知识图谱关系图

4.1.2 知识图谱的表示

知识图谱应用的前提是已经构建好了知识图谱,也可以把它认为是一个知识库。这也是为什么它可以用来回答一些搜索相关问题的原因,比如在Google搜索引擎里输入“Who is the wife of Bill Gates?”,我们可以直接得到答案“Melinda Gates”。这是因为我们在系统层面上已经创建好了一个包含“Bill Gates”和“Melinda Gates”的实体以及他俩之间关系的知识库。所以,当我们执行搜索的时候,就可以通过关键词(“Bill Gates”“Melinda Gates”“wife”)提取以及知识库上的匹配直接获得最终的答案。这种搜索方式跟传统的搜索引擎是不一样的,一个传统的搜索引擎返回的是网页,而不是最终的答案,所以就多了一个用户自己筛选并过滤信息的过程。

在现实世界里,实体和关系拥有各自的属性,比如人可以有“姓名”和“年龄”。当一个知识图谱拥有属性时,我们可以用属性图(Property Graph)来表示。图4-3表示一个简单的知识图谱表示图。李明和李飞是父子关系,并且李明拥有一个“138”开头的电话号,这个电话号的开通时间是2018年,其中“2018年”就可以作为关系的属性。类似地,李明本人也带有一些属性值,比如年龄为25岁、职位是总经理等。

图4-3 知识图谱表示图

这种属性图的表达很贴近现实生活中的场景,也可以很好地描述业务中所包含的逻辑关系。除了属性图,知识图谱也可以用RDF(Resource Description Framework,资源描述框架)来表示,它是由很多的三元组(Triples)来组成的。RDF在设计上的主要特点是易于发布和分享数据,但不支持实体或关系拥有属性,如果非要加上属性,则在设计上需要做一些修改。目前来看,RDF主要用于学术的场景,在工业界我们还是更多地采用图数据库(比如用来存储属性图)的方式。

4.1.3 知识图谱技术的发展历程

知识图谱(Knowledge Graph)的历程发展可以追溯到20世纪50年代诞生的专家系统,专家系统是一个具有大量的专门知识与经验的程序系统,它应用人工智能技术和计算机技术,根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处理的复杂问题。知识图谱发展史图如图4-4所示。

20世纪50年代到70年代,符号逻辑、神经网络、LISP语言(List Processing的缩写)和一些语义网络已经出现,不过尚处于简单且不太规范的知识表示形式。

20世纪70年代到90年代,出现了一些专家系统、一些限定领域的知识库(如金融、农业、林业等领域),以及后来出现的一些脚本、框架、推理。

20世纪90年代到2000年,出现了万维网、人工大规模知识库、本体概念、智能主体与机器人。

2000年到2006年,出现了语义Web(语义网)、群体智能、维基百科、百度百科、工作百科之类的内容。

2006年至今,我们对数据进行了结构化。但是数据和知识的体量越来越大,因此导致了通用知识库越来越多。随着大规模的知识需要被获取、整理、融合,知识图谱应运而生。

图4-4 知识图谱发展史图

从发展里程碑来看:

2010年,微软发布了Satori和Probase,它们是比较早期的数据库,当时图谱规模约为500亿,主要被应用于微软的广告和搜索等业务。

2012年,谷歌推出了Knowledge Graph(知识图谱),当时的数据规模有700亿。

后来,Facebook、阿里巴巴、亚马逊也相继于2013年、2015年和2016年推出了各自的知识图谱和知识库。它们主要被用于知识理解、智能问答、推理和搜索等业务上。

从数据的处置量来看,早期的专家系统只有上万级知识体量,后来阿里巴巴和百度推出了千亿级、甚至是兆级的知识图谱系统。

图4-5中的左表反映的是我们曾经给客户做过的某类法律文本在数量上的变化趋势。

图4-5 知识图谱文本数量增量图

2014年,文本的数量还不到1500万,而到了2018年,文本总量就超过了4500万。预计至2020年,文本的数量有望突破1亿万件(某一特定类别)。那么,我们现在所面临的问题包括数据量的巨大、非结构化保存、历史数据的积累等方面。这些都会导致信息知识体、以及各种实体的逐渐膨胀。因此,我们需要将各种知识连接起来,形成知识图谱。