1.5.2 大模型的演变与谱系_一本书读懂大模型：技术创新、商业应用与产业变革-QQ阅读女生青春网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.5.2 大模型的演变与谱系

大模型的发展主要经历了3个阶段，分别是萌芽期、探索沉淀期和迅猛发展期，如图1-3所示。

1.萌芽期（1950—2005年）：以CNN为代表的传统神经网络模型阶段

1956年，计算机专家约翰·麦卡锡首次提出“人工智能”这一概念，标志着AI模型发展的开始。最初这些模型基于小规模的专家知识，随后逐步演化为基于机器学习的方法。到了1980年，卷积神经网络的雏形诞生，开启了传统CNN、RNN等神经网络模型时代。1998年，现代卷积神经网络的一个重要里程碑——基本结构LeNet-5出现，使得机器学习方法从早期的基于浅层学习转变为基于深度学习。这为自然语言生成、计算机视觉等领域的深入研究奠定了坚实的基础。

图1-3 AI大模型发展的3个阶段

在这一转变阶段，研究者集中在AI理论探索和基础算法的开发上。早期的AI研究者尝试模拟人脑的信息处理方式，孕育了神经网络的初步形态。尽管受到计算能力和数据量的严重限制，但研究者仍致力于开发能够自动学习和自适应的模型。在技术和资源的限制下，大规模模型的开发和应用尚未实现。虽然这一时期的模型通常简单且规模小，但它们为后续复杂模型的开发奠定了重要的基础。

2.探索沉淀期（2006—2019年）：以Transformer为代表的全新神经网络模型阶段

2013年，自然语言处理模型Word2Vec诞生，首次提出了将单词转换为向量的“词向量模型”，这使得计算机能更好地理解和处理文本数据。2014年，被誉为“21世纪最强大的算法模型之一”的生成对抗网络（GAN）诞生，标志着深度学习进入生成模型研究的新阶段。2017年，Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构，为预训练大模型奠定了基础。2018年，OpenAI和Google分别发布了GPT-1与BERT大模型，标志着预训练大模型成为自然语言处理领域的主流。

在这一探索期，以Transformer为代表的全新神经网络架构奠定了大模型的算法架构基础，显著提升了大模型的性能。模型从浅层学习逐渐过渡到深度学习，在自然语言处理（NLP）和计算机视觉（CV）等领域尤为明显。Transformer模型的提出改变了NLP领域的游戏规则，并为处理复杂语言结构和语义理解提供了新的可能。这一时期的模型在规模上有显著增长，并在结构与功能上变得更加复杂和强大。然而，模型的复杂度和对数据的依赖也带来了新的挑战，如高昂的训练成本、对算力的巨大需求以及数据质量和偏见问题。

3.迅猛发展期（2020年至今）：以GPT为代表的预训练大模型阶段

2020年，OpenAI公司推出了GPT-3。该模型的参数规模达到了1750亿，成为当时全球最大的语言模型。它在零样本学习任务上实现了显著的性能提升，展现出小模型所不具备的语境学习能力。随后，更多的策略开始被采用，包括基于人类反馈的强化学习（RLHF）、代码预训练、指令微调，这些都旨在进一步提高模型的推理、长距离建模和任务泛化能力。2022年11月，GPT-3.5版本的ChatGPT问世，其凭借逼真的自然语言交互和多场景内容生成能力，迅速在互联网上引起轰动。2023年3月，OpenAI发布了最新的超大规模多模态预训练大模型GPT-4，模型参数从千亿级增长到万亿级，并展示了多模态理解与生成多种内容的能力。在这一迅猛发展的时期中，大数据、大算力和大算法的完美结合，极大地提升了大模型的预训练、生成能力以及多模态多场景的应用能力。例如，ChatGPT的巨大成功就得益于微软Azure的强大算力、维基百科等海量数据的支持，以及基于Transformer架构，坚持使用GPT模型和基于人类反馈的强化学习（RLHF）进行精细调整的策略。

在这一时期，基于更大的数据集、更强的计算能力、算法创新这三大关键要素，GPT-4等大模型使AI能力实现了巨大飞跃。这些模型不仅在规模上达到了前所未有的水平，而且展示出了令人震惊的语言理解和生成能力。它们能够处理复杂的推理任务，甚至在特定领域能与人类专家相媲美，并具有理解和生成图像、音频、视频的多模态能力。然而，大模型的训练和部署代价巨大，需要大量的数据和计算资源，还引发了关于数据隐私、模型偏见及算法透明度等问题的讨论。此外，这些模型的复杂度和庞大规模也使得它们的维护和更新更加困难，这对研究人员和开发者而言是一个挑战。

大模型作为新物种，一直在快速进化，目前已经初步形成包括各种参数规模、各种基础架构、各种模态、各种场景的大模型家族，如图1-4所示。

图1-4 大模型家族

从参数规模上看，大模型经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段。据统计，每年参数规模至少提升10倍，参数量实现了从亿级到百万亿级的突破。目前，千亿级参数规模的大模型已成为主流。

从技术架构上看，Transformer架构是大模型领域的主流架构。基于Transformer架构，大模型形成了GPT和BERT两个不同的技术路线。其中，BERT是众所周知的，其最著名的落地项目包括谷歌的AlphaGo。在GPT-3发布前，GPT方向一直不如BERT发展得好。然而，自从GPT-3问世后，GPT逐渐成为大模型的主流路线。目前，几乎所有参数规模超过千亿的大型语言模型都采用了GPT模式，例如百度的“文心一言”、阿里巴巴的“通义千问”、360的“360智脑”、昆仑万维的“天工3.5”及知乎的“知海图AI”等。

从模态上看，大模型可以分为自然语言处理、计算机视觉（CV）以及科学计算等。大模型已经从支持单一模态下的单一任务，逐渐发展至支持多模态下的多任务。

从应用领域来看，大模型可以分为通用大模型和行业大模型两种。通用大模型具有强大的泛化能力，可以在不进行调整或仅进行微调的情况下完成多场景任务。它相当于让AI完成了“通识教育”。行业大模型是在结合行业知识的基础上，对大模型进行微调，让AI完成“专业教育”，以满足能源、金融、航天、制造、传媒、城市、社科及影视等领域的需求。