自然语言处理技术:文本信息抽取及应用研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 基本定义及问题描述

1.2.1 概念

信息抽取系统处理各种非结构化或半结构化的文本输入(如新闻网页、商品页面、微博、论坛页面等),使用规则方法、机器学习、深度学习等多种知识挖掘技术,提取各种指定的结构化信息(如实体、关系、商品记录、列表、属性等),并将这些信息在不同的层面进行集成(知识去重、知识链接、知识系统构建等),最终形成结构化数据,便于计算机存储、管理和利用。根据提取的信息类别,目前信息抽取的核心研究内容可以划分为命名实体识别(Named Entity Recognition,NER)、关系抽取(Relation Extraction,RE)、事件抽取,以下分别介绍具体的研究内容。