1.1 人工智能技术历史
过去的几十年间,计算机技术发展日新月异,从20世纪末的深蓝击败国际象棋冠军选手、21世纪AlphaGo击败一众围棋冠军,到最近星际争霸比赛也被AI选手拿下,随着计算机的算力提高、算法增强,似乎任何有规则的竞技性任务都会被AI攻克。而Diffusion Model和ChatGPT的出现,标志着人工智能的另一个时代——艺术领域也被AI所侵占。
这一切的变化是怎么发生的呢?主要归结于两方面原因:一是硬件本身的提高,GPU显卡的出现导致计算机的性能大幅度提升,各式各样的异构计算集群层出不穷,人工智能算法运行的环境和算力要求得到了初步满足;二是深度学习这一革命性技术的变革,从计算机视觉领域开始,到智能决策,再到今日的自然语言处理领域,深度学习不断证明了自己的强大潜力和实力。时至今日,人工智能产业不断发展,高新技术企业不断涌现,人工智能的技术变革远非一日造就,而是长达近一个世纪的技术人才共同努力的结果。
第一代神经网络(1958—1969年):虽然最早的神经网络思想源于1943年的MCP人工神经元模型,希望通过模仿人类神经反应的工作原理来建立计算机模型。但是第一次将其用于机器学习(分类)的是在1958年出现的感知机算法,该算法对输入的多维数据进行分类,并且利用梯度下降自动学习更新权值。但是,到了1969年,该模型被证明本质上是一种线性模型,无法解决异或的分类问题,导致感知机模型发展陷入停滞。
第二代神经网络(1986—1998年):Hinton在1986年发明了适用于多层感知器(Multilayer Perceptron, MLP)的BP算法,并采用Sigmoid进行非线性映射,有效解决了非线性分类和学习的问题。这给神经网络的发展带来本质的提升和飞越。1989年,Robert Hecht-Nielsen证明了MLP的万能逼近定理,即对于任何闭区间内的一个连续函数f,都可以用含有一个隐含层的BP网络来逼近。这为深度学习的发展奠定了理论基础。同样也是在1989年,LeCun发明了卷积神经网络——LeNet,并将其用于数字识别。但是,在1989年以后由于没有特别突出的方法被提出,且神经网络(Neural Network, NN)一直缺少相应的严格的数学理论支持,神经网络的热潮渐渐冷淡下去。进入1991年,BP算法被指出存在梯度消失问题,即在误差梯度后向传递的过程中,后层梯度以乘性方式叠加到前层,由于Sigmoid函数的饱和特性,后层梯度本来就小,误差梯度传到前层时几乎为0。因此,无法对前层进行有效学习,这导致了神经网络受到严重怀疑。1997年,LSTM模型被发明,尽管该模型在序列建模上的特性非常突出,但由于正处于NN的下坡期,也没有引起足够的重视。
第三代神经网络(2012年至今):2012年,Hinton课题组首次参加ImageNet图像识别比赛,其构建的CNN网络AlexNet一举夺得冠军,且碾压第二名(SVM方法)的分类性能。也正是由于该比赛,深度学习技术开始爆发性发展,受到学术界的注意和研究。也正是从这一年开始,深度学习的能力不断被发展,从最早的卷积网络(经历了从较小的网络AlexNet,到ResNet,再到DesNet,发展成为超大规模网络VGG、Inception等系列网络的过程),到长短时记忆网络,再到循环神经网络,最后到以注意力机制为基础的Transformer网络,深度学习已经变成时代的主流。
时至今日,第四代神经网络以超大规模的参数和模型为基础已经开始崭露头角,ChatGPT为代表的大规模语言模型证明了无与伦比的强大实力,接下来我们将从历史的人工智能技术和范式开始,把人工智能的历史和ChatGPT的技术核心展现给大家。