前言
作为一种深度学习模型,大模型具有庞大的参数规模,并通过大量算力资源在大规模数据集上进行预训练,所产生的模型可以适配广泛的下游任务。作为演进式人工智能的杰出代表,大模型的发展历程充满了里程碑式的成果。2006年,加拿大多伦多大学的Hinton教授发表在Science上的论文首次提出DBN(Deep Belief Network,深度信念网络),该模型首先以无监督预训练方式逐层训练模型,然后进行有监督微调,为后续的深度学习研究奠定基础;2017年,Google公司在论文“Attention Is All You Need”中提出Transformer深度学习架构;2021年,斯坦福大学李飞飞与众多学者联名发表的研究报告On the Opportunities and Risk of Foundation Models中将预训练模型定义为Foundation Model(基础模型);2022年,OpenAI公司推出大模型产品——ChatGPT。从此,人工智能正式迈入以大模型为代表的人工智能2.0时代。
自ChatGPT问世以来,大模型技术以前所未有的速度改变了世界,浸润到各个行业,推动生产力的跨越式发展,深刻地改变了人们的生产、生活方式。
当前,大模型已经进入应用落地、产业孵化阶段。谁掌握了大模型技术,将大模型技术有效应用于业务,他将具有更强的创新力、竞争力。这已经成为不争的事实。
但是在大模型技术高速发展的过程中,出现了不同的大模型版本、丰富的大模型技术以及大模型生态工具,这些都增加了人们学习以及采用大模型技术来解决实际问题的难度。为了降低大模型学习以及应用的门槛,本书进行了专门编排。
本书分为理论和实践两大部分,全面涵盖从数据预处理、模型预训练到模型微调、模型推理、模型应用的全流程,旨在帮助读者建立完整的大模型知识体系。其中,理论部分详细介绍了大模型的原理,以及多种训练、微调、推理效率提升技术和框架,从而帮助读者深入理解大模型的工作机制和内在逻辑。尽管大模型相关技术仍在快速迭代之中,更加优秀的训练、微调技术相继提出,但本书所介绍的相关技术依然有效,技术的核心思想在未来仍具有极高的价值。实践部分聚焦于模型训练和各项技术的使用方法,以及使用LangChain框架构建应用程序的方法,并且通过讲解PEFT(Parameter Efficient Fine-tuning,参数高效微调)技术的使用方法,帮助读者以较低的计算资源成本、以开源模型为基座训练应用于垂直领域的大模型,并且通过具体案例演示如何将大模型应用于解决实际问题,包括对话式检索问答、长短文本总结等任务。
通过对本书的学习与工程实践,读者不仅可以学习大模型理念,而且能够掌握大模型技术范式。要将大模型变为可以提高各个领域生产力的智能技术,大模型技术的赋能方与大模型应用的业务方除了了解、学习大模型应用领域的业务知识以外,还应一起思考、一起计划、一起实施,只有这样,才能真正推动新质生产力的发展。关于大模型技术的赋能方与大模型应用的业务方的融合方面的知识与资源,读者可以关注微信公众号“智源齐说”,该公众号分享了关于大模型人才培养、大模型应用产业融合等方面的内容。
本书主要内容
本书共12章,其中,第1章~第7章为理论介绍部分。这部分内容阐释了大模型的基础知识,并加入了相关开源库的介绍与使用方法。第1章帮助读者对大模型的发展、术语、开发流程有基本了解。第2章介绍了文本数据、图像数据、图文对数据的预处理方法,并介绍了Datasets库,读者可以通过该库快速加载各类数据集。第3章对Transformer进行讲解。由于多模态大模型发展迅速,该章也加入了ViT、Q-Former的相关内容。第4章~第6章关注模型的预训练与微调技术。由于大模型对硬件资源有一定要求,因此本书加入了对训练优化、高效微调技术的讲解。第7章介绍了模型推理的常用压缩技术和推理服务提升技术。
第8章~第12章为开发实践部分。这部分内容将基础知识与开源工具、具体项目相结合,以提升大模型开发能力。第8章介绍了PyTorch框架,第12章的微调训练主要依赖该章介绍的内容。通过学习第9章~第11章的内容,读者可以掌握“向量数据库+大模型+LangChain”这一重要开发范式的使用方法。这一开发范式属于检索增强生成(Retrieval-Augmented Generation,RAG)技术,通过外置知识库来缓解大模型知识滞后,减少大模型幻觉,为隐私数据提供安全访问方式,并能提供个性化解决方案。第12章介绍了 3个开源模型的微调实战,向读者阐述以较低成本微调模型的具体操作过程。
读者在阅读本书时,可以同时实践书中的案例,完成课后习题,通过理论与实践相结合的方式来掌握基本的大模型开发能力。
衷心希望读者能够将本书的内容应用于各种垂直领域的具体场景,提出各种应用创新想法或思路,充分发挥本书的作用,取得更好的学习效果与应用实践效果。
本书的内容主要来自北京邮电大学MAIR团队的科研实践以及我在人工智能产学研交流与合作中的思考。面对发展迅猛的大模型技术,我们希望通过本书可以培养更多的大模型人才,促进围绕大模型的技术创新与发展,让大模型在人们的生产、生活、学习中发挥更大、更广泛的作用。
同时,MAIR团队为本书开发了配套的大模型实训平台,方便读者进行练习。
在编写过程当中,难免出现纰漏,还请读者批评指正。
张成文