1.2.5 资源受限
当前,以大规模标注数据驱动为主的信息抽取方法取得了长足的发展。该类方法通过神经网络编码器学习词、句中的语义信息,得益于神经网络强大的表示学习能力,训练得到的信息抽取模型能有效地拟合训练数据、学习各信息类别所对应的复杂语义模式,并取得了较为理想的预测结果,标注资源丰富的领域的抽取技术已经达到了实用水平。例如,在新闻领域数据集ACE 2005上的英文关系识别F1值已达0.77以上,在通用领域SemEval 2008数据集上的关系识别F1值目前则已达0.90左右。
尽管信息抽取系统性能优异,但由于基于数据驱动的关系抽取方法缺乏对数据的理解能力,导致该类方法的领域泛化能力、系统可扩展性较差。例如,由于不同体裁的文本的语义特征分布不同,将使用新闻语料训练得到的模型应用于微博体裁的测试语料,信息抽取系统性能会大幅下降。另外,由于信息类别定义数量有限,所以现有方法无法抽取定义类别之外的语义知识。当需要识别新的信息类别时,需要相应地标注大量训练样例,在极端情况下甚至需要重新标注整个数据集,会花费大量人力成本。这些传统基于数据驱动方法的缺陷在资源受限领域中遗留并被放大。资源受限领域往往是医学、金融、法律等垂直领域,跟通用领域相比,这些垂直领域对标注数据的要求会更高,需雇佣大量领域专家,标注起来会更困难。
利用少量训练实例理解实体间关系并将关系应用到其他领域或拓展到其他类别对于机器来说很困难,但人类却能轻而易举地理解知识并学以致用,将知识拓展到其他领域。例如,人类在学会骑自行车之后,会很容易地学会骑摩托车——这是因为人类拥有许多从其他领域学到的知识,并能够利用这些知识迁移到新的领域。语言的理解建立在人类认知的基础上,如果想赋予机器语言认知能力,那么就需要赋予机器积累、迁移知识的能力。知识迁移是指存储从已有问题中学习到的知识,并将其应用在其他不同但相关问题上,它是人类学习的一种方法,反映了人类认知的本质。自古时起,人类就注意到了知识迁移对认知学习的重要性。春秋时期,孔子提出了“举一隅不以三隅反,则不复也”的说法;宋代朱熹提出了“举一而三反;闻一而知十”的思想。这些思想都认为人类需汇集各方面知识,掌握不同领域的共通性,进而可以快速将在一个领域内获得的知识理解迁移到其他领域中。
人类通过知识积累、迁移认知世界,知识迁移能力是人类认知世界的基础。毫无疑问,知识迁移能够促进人类学习的认知过程。同样,知识迁移也可以用于培育机器智能,赋予机器知识迁移能力,这是通向人工智能的征程中需迈出的至关重要的一步。因此,面向快速构建资源受限领域信息抽取的研究及应用需求,为了解决传统基于数据驱动方法在关系抽取上面临的挑战,需要设计知识迁移框架,积累从资源丰富领域学习到的共通性的知识,并迁移运用到资源受限领域,缓解模型对标注数据的依赖,进而实现低资源情况下对实体间语义信息的精准、高效表示建模。