1.5.2 大模型的演变与谱系
大模型的发展主要经历了3个阶段,分别是萌芽期、探索沉淀期和迅猛发展期,如图1-3所示。
1.萌芽期(1950—2005年):以CNN为代表的传统神经网络模型阶段
1956年,计算机专家约翰·麦卡锡首次提出“人工智能”这一概念,标志着AI模型发展的开始。最初这些模型基于小规模的专家知识,随后逐步演化为基于机器学习的方法。到了1980年,卷积神经网络的雏形诞生,开启了传统CNN、RNN等神经网络模型时代。1998年,现代卷积神经网络的一个重要里程碑——基本结构LeNet-5出现,使得机器学习方法从早期的基于浅层学习转变为基于深度学习。这为自然语言生成、计算机视觉等领域的深入研究奠定了坚实的基础。
图1-3 AI大模型发展的3个阶段
在这一转变阶段,研究者集中在AI理论探索和基础算法的开发上。早期的AI研究者尝试模拟人脑的信息处理方式,孕育了神经网络的初步形态。尽管受到计算能力和数据量的严重限制,但研究者仍致力于开发能够自动学习和自适应的模型。在技术和资源的限制下,大规模模型的开发和应用尚未实现。虽然这一时期的模型通常简单且规模小,但它们为后续复杂模型的开发奠定了重要的基础。
2.探索沉淀期(2006—2019年):以Transformer为代表的全新神经网络模型阶段
2013年,自然语言处理模型Word2Vec诞生,首次提出了将单词转换为向量的“词向量模型”,这使得计算机能更好地理解和处理文本数据。2014年,被誉为“21世纪最强大的算法模型之一”的生成对抗网络(GAN)诞生,标志着深度学习进入生成模型研究的新阶段。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,为预训练大模型奠定了基础。2018年,OpenAI和Google分别发布了GPT-1与BERT大模型,标志着预训练大模型成为自然语言处理领域的主流。
在这一探索期,以Transformer为代表的全新神经网络架构奠定了大模型的算法架构基础,显著提升了大模型的性能。模型从浅层学习逐渐过渡到深度学习,在自然语言处理(NLP)和计算机视觉(CV)等领域尤为明显。Transformer模型的提出改变了NLP领域的游戏规则,并为处理复杂语言结构和语义理解提供了新的可能。这一时期的模型在规模上有显著增长,并在结构与功能上变得更加复杂和强大。然而,模型的复杂度和对数据的依赖也带来了新的挑战,如高昂的训练成本、对算力的巨大需求以及数据质量和偏见问题。
3.迅猛发展期(2020年至今):以GPT为代表的预训练大模型阶段
2020年,OpenAI公司推出了GPT-3。该模型的参数规模达到了1750亿,成为当时全球最大的语言模型。它在零样本学习任务上实现了显著的性能提升,展现出小模型所不具备的语境学习能力。随后,更多的策略开始被采用,包括基于人类反馈的强化学习(RLHF)、代码预训练、指令微调,这些都旨在进一步提高模型的推理、长距离建模和任务泛化能力。2022年11月,GPT-3.5版本的ChatGPT问世,其凭借逼真的自然语言交互和多场景内容生成能力,迅速在互联网上引起轰动。2023年3月,OpenAI发布了最新的超大规模多模态预训练大模型GPT-4,模型参数从千亿级增长到万亿级,并展示了多模态理解与生成多种内容的能力。在这一迅猛发展的时期中,大数据、大算力和大算法的完美结合,极大地提升了大模型的预训练、生成能力以及多模态多场景的应用能力。例如,ChatGPT的巨大成功就得益于微软Azure的强大算力、维基百科等海量数据的支持,以及基于Transformer架构,坚持使用GPT模型和基于人类反馈的强化学习(RLHF)进行精细调整的策略。
在这一时期,基于更大的数据集、更强的计算能力、算法创新这三大关键要素,GPT-4等大模型使AI能力实现了巨大飞跃。这些模型不仅在规模上达到了前所未有的水平,而且展示出了令人震惊的语言理解和生成能力。它们能够处理复杂的推理任务,甚至在特定领域能与人类专家相媲美,并具有理解和生成图像、音频、视频的多模态能力。然而,大模型的训练和部署代价巨大,需要大量的数据和计算资源,还引发了关于数据隐私、模型偏见及算法透明度等问题的讨论。此外,这些模型的复杂度和庞大规模也使得它们的维护和更新更加困难,这对研究人员和开发者而言是一个挑战。
大模型作为新物种,一直在快速进化,目前已经初步形成包括各种参数规模、各种基础架构、各种模态、各种场景的大模型家族,如图1-4所示。
图1-4 大模型家族
从参数规模上看,大模型经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段。据统计,每年参数规模至少提升10倍,参数量实现了从亿级到百万亿级的突破。目前,千亿级参数规模的大模型已成为主流。
从技术架构上看,Transformer架构是大模型领域的主流架构。基于Transformer架构,大模型形成了GPT和BERT两个不同的技术路线。其中,BERT是众所周知的,其最著名的落地项目包括谷歌的AlphaGo。在GPT-3发布前,GPT方向一直不如BERT发展得好。然而,自从GPT-3问世后,GPT逐渐成为大模型的主流路线。目前,几乎所有参数规模超过千亿的大型语言模型都采用了GPT模式,例如百度的“文心一言”、阿里巴巴的“通义千问”、360的“360智脑”、昆仑万维的“天工3.5”及知乎的“知海图AI”等。
从模态上看,大模型可以分为自然语言处理、计算机视觉(CV)以及科学计算等。大模型已经从支持单一模态下的单一任务,逐渐发展至支持多模态下的多任务。
从应用领域来看,大模型可以分为通用大模型和行业大模型两种。通用大模型具有强大的泛化能力,可以在不进行调整或仅进行微调的情况下完成多场景任务。它相当于让AI完成了“通识教育”。行业大模型是在结合行业知识的基础上,对大模型进行微调,让AI完成“专业教育”,以满足能源、金融、航天、制造、传媒、城市、社科及影视等领域的需求。