2.2.2 词形还原
词形还原(Lemmatization)是指将词的各种变化形式还原为其词根的过程。通过词形还原可以实现词语的规范化,将词的不同变化形式统一为词根。
例如,原始输入句:They are working on interesting tasks
词形还原后:they be work on interesting task
词形还原可以通过词形分析来完成。词形分析(Morphological Parsing)是指将一个词分解成语素的过程。最简单的方法是词典查表法,将每一个词的所有词形变化都存储下来,使用时直接匹配查找。对于英语来说,构建包含绝大多数词形的词典能够有效地支撑许多应用场景。由于用词方式的变化和新词的不断出现,需要对该词典进行及时维护。但是,对于某些语言(特别是土耳其语、阿拉伯语等黏着语系的语言)来说,枚举所有词的词形变化是不可能的。
例如:土耳其语词汇uygarlaştıramadıklarımızdanmışsınızcasına是由以下10项变化组合而成的[45]。
uygar +la +tr +ama +dk +lar +mz +dan +m +snz +casna
civilized +BEC +CAUS +NABL +PART +PL +P1PL +ABL +PAST +2PL +AsIf其中,除了词根uygar,其他语素的含义如下:
+BEC “变成”(become)
+CAUS 标识使役动词
+NABL “不能”(not able)
+PART 过去分词
+PL 名词复数
+P1PL 第一人称复数所有格
+ABL 表明来源的离格(ablative(from/among)case maker)
+PAST 带过去时的间接引语(indirect/inferential past)
+AsIf 从限定动词派生出的副词
可以看到,在一些语言中,由于词形变化的复杂性,一个词的原形可能衍生出很多不同的词。采用词典匹配的方法很难达到较好的分析效果。因此,需要更有效率的词形分析算法。典型的词形分析算法包括基于有限状态转换机(Finite State Transducer,FST)的方法、融合词典和有限状态转换机的方法及统计机器学习方法等。