GPT作为生成式模型的天然优势_GPT图解：大模型是怎样构建的-QQ阅读女生现言网

上QQ阅读APP看书，第一时间看更新

小冰：咖哥，BERT和GPT这两个模型都是“预训练”模型，它们到底怎么训练出来的，有什么不同呢？

咖哥：嗯，知道它们之间的不同点，对你理解语言模型的本质很有好处。鉴于你是初学者，我将用你能够理解的方式来讲解二者的异同，你看看下面这张图。

BERT和GPT的预训练过程比较

BERT的预训练过程就像是做填空题。在这个过程中，模型通过大量的文本数据来学习，随机地遮住一些单词（或者说“挖空”），然后尝试根据上下文来预测被遮住的单词是什么（这是双向的学习）。这样，模型学会了理解句子结构、语法及词汇之间的联系。

GPT的预训练过程则类似于做文字接龙游戏。在这个过程中，模型同样通过大量的文本数据来学习，但是它需要预测给定上文的下一个单词（这是单向的学习）。这就像是在一个接龙游戏中，你需要根据前面的单词来接龙后面的单词。通过这种方式，GPT学会了生成连贯的文本，并能理解句子结构、语法及词汇之间的关系。

上面两个预训练模型实现细节上的区别，我们留待后续实战部分中详述。不过，我要强调一点，就是二者相比较，GPT更接近语言模型的本质，因为它的预训练过程紧凑且有效地再现了自然语言生成的过程。

所以，虽然BERT模型比较“讨巧”，通过双向的上下文学习增强了语言模型的理解能力，但是语言模型的核心任务是为给定的上下文生成合理的概率分布。在实际应用中，我们通常需要模型根据给定的上下文生成接下来的文本，而不是填充已有文本中的空白部分。

而GPT正是通过从左到右逐个预测单词，使得模型在生成过程中能够学习到自然语言中的连贯表达、句法和语义信息。在大规模预训练模型发展的初期，它没有BERT那么耀眼，不过，它后来居上，为ChatGPT的横空出世打下了强大的基础。