自然语言处理导论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3 中文分词

以英语为代表的印欧语系的语言中词之间通常有分隔符(空格等)来区分,词可以比较容易地从句子中分割得到。但是以汉语为代表的汉藏语系的语言,以及以阿拉伯语为代表的闪-含语系(Semito-Hamitic languages)的语言中却不包含明显的词之间的分隔符,而由一串连续的字符构成。因此,针对汉语等语言的处理算法通常需要先进行词语切分。

本节将以汉语为例介绍词语切分的基本概念以及所面临的主要问题,然后介绍基于最大匹配、基于线性链条件随机场、基于感知器和基于双向长短期记忆网络的中文分词算法,最后介绍中文分词评测方法和常见的中文分词语料库。