ChatGPT、AutoGPT与10亿岗位冲击:GPT-4、GPT-5等迭代和AIGC、AGI生存
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

一、ChatGPT产生的基础与原因

OpenAI从2018年开始推出生成式预训练语言模型GPT(Generative Pre-trained Transformer)系列而在业界声名鹊起。GPT系列可用于生成文章、代码、翻译、问答等众多内容,到目前为止,这个系列主要包括GPT-1、GPT-2和GPT-3。其中,ChatGPT与GPT-3更为相近,是基于GPT-3.5架构开发出来的对话AI模型。GPT系列是ChatGPT产生(或被提出)的基础,主要有如下原因。

一是GPT系列不断迭代优化、补齐短板和提升性能的要求。OpenAI推出的GPT系列与谷歌2018年提出的BERT模型都是基于Transformer技术的知名自然语言处理模型,其模型结构如图2-1所示。

图2-1 GPT系列的模型结构(图中的Trm代表一个Transformer单元)

早期的GPT-1通过构建预训练任务得到一个通用的预训练模型,这个模型和BERT一样,都可用来做下游任务的微调,并在9个NLP任务上取得了很好的效果。但GPT-1使用的模型规模和数据量都比较小,这就促成了GPT-2的诞生。

GPT-2的目标是训练一个泛化能力更强的模型,它并没有对GPT-1的网络进行过多的结构创新或改造,而只是使用了更多的网络参数和更大的数据集。其最大贡献就是验证了通过海量数据和大量参数训练出来的模型能够迁移到其他下游任务中而不需要额外的训练,但是它在一些性能方面的表现依然不够理想,这就催生了GPT-3。

GPT-3的各项性能远超GPT-2,非常强大,除了提升模型对常见的NLP任务处理的效果之外,还在很多非常困难的任务(诸如撰写文稿、编写代码、数学运算等泛化能力)中有了大幅度提升。

二是,从GPT系列迭代过程中的各项指标(表2-1)看出:GPT-1只有12个Transformer层,词向量通俗地说,由于计算机无法识别文本,故需要将其数值化;词向量是将文本数值化,转化成计算机识别的语言。专业的解释:词向量就是将一个词所表达的稀疏向量转化为稠密向量,而且对于相似的词,其对应的词向量也很相近。长度为768,参数过亿,预训练数据约50GB;而到了GPT-3,Transformer层猛增到96层,词向量长度暴增至12,888,参数越过三个数量级达到1750亿,预训练数据翻了约1000倍达到45TB。第一,由于预训练模型就像一个巨大的黑箱,如此巨大增幅的训练,没有人能够保证预训练模型不会生成一些无用的、有害的或危险的内容;第二,如此海量的训练数据(虽然经过了清洗),里面肯定包含有害的或危险的训练样本;第三,预训练模型自诞生之始,一个备受诟病的问题就是其中暗含诸如种族歧视、性别歧视等偏见。针对上述问题,OpenAI提出了以有用的(Helpful)、可信的(Honest)和无害的(Harmless)为主线条的优化目标,这正是ChatGPT与其兄弟模型InstructGPT被一同提出的重要动机之一,因为它们能够部分地解决这些问题。

表2-1 OpenAI推出的生成式预训练语言模型GPT系列简况

三是,GPT系列发展到第三代,GPT-3与ChatGPT在职能分工上便有了分化。GPT-3被定位为一个功能强大的基础模型,可以用于自然语言相关的更广泛的任务处理,可以在此基础上针对下游的多种任务进行微调训练,从而训练出不同的产品。而ChatGPT则接受了多种不同语言模式和风格的训练,能够生成更加多样化和细微的人类响应,也就是更“亲民”了(比如,不仅能持续多轮对话,而且更像一个能够揣摩对话者心理的“油腻中年人”,更具“人性”了)。

这也是ChatGPT被OpenAI描述为以GPT-3.5为基础架构开发出来的新的自然语言处理模型,而不是直接被定位为迭代的GPT-4的原因。也就是说,ChatGPT只是一个介于GPT-3与GPT-4之间被特别开发出来的更适合大众使用的产品。这个判断也可以从OpenAI官网对ChatGPT的最初功能定义和描述上看出来。这就是GPT-3与ChatGPT分别被提出的时候都引起了轰动,只不过前者主要在圈内,后者火出了圈进而引爆全球的原因,即二者的功能定位不同,是OpenAI的有意设计。这样也快速提升了OpenAI与其产品的知名度,引发了众多好的连锁反应。