更新时间:2024-12-11 17:23:33
封面
版权信息
版权
内容提要
前言
序章 看似寻常最奇崛,成如容易却艰辛
GPT-4:点亮通用人工智能的火花
人工智能演进之路:神经网络两落三起
现代自然语言处理:从规则到统计
何为语言?信息又如何传播?
NLP是人类和计算机沟通的桥梁
NLP技术的演进史
大规模预训练语言模型:BERT与GPT争锋
语言模型的诞生和进化
统计语言模型的发展历程
基于Transformer架构的预训练模型
“预训练+微调大模型”的模式
以提示/指令模式直接使用大模型
从初代GPT到ChatGPT,再到GPT-4
GPT作为生成式模型的天然优势
ChatGPT背后的推手——OpenAI
从初代GPT到ChatGPT,再到GPT-4的进化史
第1课 高楼万丈平地起:语言模型的雏形N-Gram和简单文本表示Bag-of-Words
1.1 N-Gram模型
1.2 “词”是什么,如何“分词”
1.3 创建一个Bigram字符预测模型
1.4 词袋模型
1.5 用词袋模型计算文本相似度
小结
思考
第2课 问君文本何所似:词的向量表示Word2Vec和Embedding
2.1 词向量 ≈ 词嵌入
2.2 Word2Vec:CBOW模型和Skip-Gram模型
2.3 Skip-Gram模型的代码实现
2.4 CBOW模型的代码实现
2.5 通过nn.Embedding来实现词嵌入
第3课 山重水复疑无路:神经概率语言模型和循环神经网络
3.1 NPLM的起源
3.2 NPLM的实现
3.3 循环神经网络的结构
3.4 循环神经网络实战
第4课 柳暗花明又一村:Seq2Seq编码器-解码器架构
4.1 Seq2Seq架构
4.2 构建简单Seq2Seq架构
第5课 见微知著开慧眼:引入注意力机制
5.1 点积注意力
5.2 缩放点积注意力
5.3 编码器-解码器注意力
5.4 注意力机制中的 Q、K、V
5.5 自注意力
5.6 多头自注意力
5.7 注意力掩码
5.8 其他类型的注意力
第6课 层峦叠翠上青天:搭建GPT核心组件Transformer
6.1 Transformer架构剖析
6.1.1 编码器-解码器架构
6.1.2 各种注意力的应用
6.1.3 编码器的输入和位置编码
6.1.4 编码器的内部结构
6.1.5 编码器的输出和编码器-解码器的连接
6.1.6 解码器的输入和位置编码
6.1.7 解码器的内部结构
6.1.8 解码器的输出和Transformer的输出头
6.2 Transformer代码实现
6.3 完成翻译任务
6.3.1 数据准备
6.3.2 训练Transformer模型
6.3.3 测试Transformer模型
第7课 芳林新叶催陈叶:训练出你的简版生成式GPT
7.1 BERT与GPT争锋
7.2 GPT:生成式自回归模型
7.3 构建GPT模型并完成文本生成任务
7.3.1 搭建GPT模型(解码器)
7.3.2 构建文本生成任务的数据集
7.3.3 训练过程中的自回归
7.3.4 文本生成中的自回归(贪婪搜索)
7.4 使用WikiText2数据集训练Wiki-GPT模型
7.4.1 用WikiText2构建Dataset和DataLoader
7.4.2 用DataLoader提供的数据进行训练
7.4.3 用Evaluation Dataset评估训练过程
7.4.4 文本生成中的自回归(集束搜索)
第8课 流水后波推前波:ChatGPT基于人类反馈的强化学习
8.1 从GPT到ChatGPT
8.2 在Wiki-GPT基础上训练自己的简版ChatGPT
8.3 用Hugging Face预训练GPT微调ChatGPT
8.4 ChatGPT的RLHF实战
8.4.1 强化学习基础知识
8.4.2 简单RLHF实战