GPT图解:大模型是怎样构建的
上QQ阅读APP看书,第一时间看更新

GPT作为生成式模型的天然优势

小冰:咖哥,BERT和GPT这两个模型都是“预训练”模型,它们到底怎么训练出来的,有什么不同呢?

咖哥:嗯,知道它们之间的不同点,对你理解语言模型的本质很有好处。鉴于你是初学者,我将用你能够理解的方式来讲解二者的异同,你看看下面这张图。

BERT和GPT的预训练过程比较

BERT的预训练过程就像是做填空题。在这个过程中,模型通过大量的文本数据来学习,随机地遮住一些单词(或者说“挖空”),然后尝试根据上下文来预测被遮住的单词是什么(这是双向的学习)。这样,模型学会了理解句子结构、语法及词汇之间的联系。

GPT的预训练过程则类似于做文字接龙游戏。在这个过程中,模型同样通过大量的文本数据来学习,但是它需要预测给定上文的下一个单词(这是单向的学习)。这就像是在一个接龙游戏中,你需要根据前面的单词来接龙后面的单词。通过这种方式,GPT学会了生成连贯的文本,并能理解句子结构、语法及词汇之间的关系。

上面两个预训练模型实现细节上的区别,我们留待后续实战部分中详述。不过,我要强调一点,就是二者相比较,GPT更接近语言模型的本质,因为它的预训练过程紧凑且有效地再现了自然语言生成的过程

所以,虽然BERT模型比较“讨巧”,通过双向的上下文学习增强了语言模型的理解能力,但是语言模型的核心任务是为给定的上下文生成合理的概率分布。在实际应用中,我们通常需要模型根据给定的上下文生成接下来的文本,而不是填充已有文本中的空白部分。

而GPT正是通过从左到右逐个预测单词,使得模型在生成过程中能够学习到自然语言中的连贯表达、句法和语义信息。在大规模预训练模型发展的初期,它没有BERT那么耀眼,不过,它后来居上,为ChatGPT的横空出世打下了强大的基础