第一节 数据“永动机”
人工智能的发展离不开数据,只要有数据注入,人工智能就如同“永动机”一样,源源不断推动人类社会前进。
数据好似普罗米修斯盗取的火种,点燃了人工智能的革命之火。要想深入理解人工智能,需要先理解数据与人工智能的关系。
一切可以从全球知名人工智能学者李飞飞说起。这位华人学者是ImageNet图像数据集的发起人,在学界声誉卓著。她的一大关键贡献就是洞悉数据的重要性,并以构建图像数据集的形式推动了人工智能技术的发展。
2000年,李飞飞在攻读加州理工学院的博士,研究的是神经科学和计算机科学的交叉领域。她发现一个问题:计算机视觉同行一直研究计算机感知和解码图像的模型,但模型总是针对个别具象的物体,比如狗或者猫,识别效果不尽如人意,且模型的应用也有巨大的限制。
李飞飞开始另辟蹊径。她灵光一现,认为要害也许不在模型而在数据上。比方说,孩子从小观察无数物体和场景,学习视觉,其中识别猫与狗也是基于重复观察。或许,计算机可以模拟同样的学习方式,基于大量图像的浏览进行类似的学习,最终识别出图像中的具体物体。
颠覆性的想法一出现,李飞飞很兴奋,认定数据才是解决问题的方向。她一刻也没停,开始推进想法落地,但实践起来却困难重重。
首先,她需要构建一个完整的标注标准,方便在庞大的数据库中为每张图片的物体做标记,避免性别、民族或个人主观偏见。标注一张照片时,数据标签要从抽象、概括的描述一直标注到具体、细致的分类,比如,从抽象的“哺乳动物”一直到具体的“星鼻鼹鼠”。
其次,图片标记的工作量巨大,过程相当乏味。起初,李飞飞给普林斯顿大学的学生每小时10美元的报酬,但是任凭学生们如何加班加点,标注工作依旧进展缓慢。后来,在学生的提醒下,她发现了一个解决问题的好办法——使用Amazon Mechanical Turk5,联合全球标注人员参与,成本低、标注速度快。如此一来,工作才明显提速。
到2009年,李飞飞领导的团队已经标注了近320万张图片,涉及种类繁多。因为她本科就读于普林斯顿大学,该学校的研究者设计过一种基于认知语言学的英语词典,取名WordNet,于是李飞飞将这个图像数据集命名为ImageNet。
现在,ImageNet拥有1500万张图片,这不仅仅是一个庞大的数据库,也提供了一套行业基准的测试标准。不同算法可基于百万级的图片各显能力,以准确率来定量分析算法的有效性。
ImageNet图像数据集一建立,李飞飞就设法说服了一个计算机视觉比赛的主办方,请他们使用这个数据库训练和检验参赛者的算法。主办方在2010年举办的欧洲比赛,便成了载入人工智能发展史的ImageNet大规模图像识别挑战赛。
从2010年到2017年,ImageNet挑战赛的分类错误率从28%降到3%以下,只有最初的1/10左右;物体识别的平均准确率从23%升至66%。特别是2012年杰弗里·辛顿引入深度学习算法后,准确率有了大幅的提升。到2015年,计算机视觉在若干细分场景的错误率甚至低于人类水平,基本攻克简单的物体识别问题,开始了大规模产业应用。
李飞飞和ImageNet挑战赛的贡献,生动地说明了数据与人工智能的关系。
第一,数据是人工智能第三波浪潮的关键。如果不是调整方向,先构建ImageNet这样的大型数据库,这一波人工智能的兴起时间可能会大大延后。
第二,流行的深度学习算法、验证与应用,都要基于大量的数据训练。以计算机视觉为例,所有研究者先在ImageNet数据集中预训模型已成为全球惯例。
第三,构建适用人工智能的数据库,有赖于底层繁重的标注工作。杰弗里·辛顿在“一战”成名,但是若没有Amazon Mechanical Turk平台大量无名者的努力,他的算法再精妙,也是无源之水、无本之木。
ImageNet挑战赛后,李飞飞的研究方向转向探索视觉关系识别,其核心工作之一依然是构建数据。
2019年,李飞飞团队又推出Visual Genome(视觉基因)数据集,其中包含10万张图像、420万条图像描述、180万个问答对、140万个带标签的物体、150万条关系及170万条属性,其目标就是走出物体本身,关注更多物体对象间的关系识别、语义表征和联合推理等。比如,将一张照片输入算法模型中,希望算法可以识别出其中的重点物体,找到所在位置,并且找到物体与物体之间的两两关系。
数据标注者是AI革命的无名英雄
20世纪90年代,人工智能的主流方向一度是符号式学习(symbolic learning),数据并没有贡献多大价值。客观地说,当时业界也没有大量数据可以“滋养”人工智能。进入2000年后,互联网应用广泛开展,计算存储能力大幅提升,大数据才真正出现,并与深度学习技术一起碰撞出新的价值。
ImageNet数据集助力了深度学习的诞生。一开始,数据就与人工智能形成了强互动关系。
深度学习技术的基本原理,就是模拟人类大脑,构建一个由算力支持的神经网络系统,经由大量的数据训练,学习识别不同的模式,模仿人类的思维模式进行决策。数据训练量越大、越丰富,训练的模型效果越好。
●数据标注
人工智能可识别的数据必须进行标注,唯有如此,人造的神经网络系统才能“看见”。现阶段,许多公司拥有大量数据,但并非捡起来就能使用人工智能,如果没有现成的算法模型,就须先过标注这关。
数据标注的全流程,涉及收集、清洗、标注及校验。数据标注的最基本工作是“画框”,比如检测目标是猫,标注员就要将图上的猫标出来,标注的画框需要完全覆盖住猫,并标注体现猫特征的关键;如果检测目标是人,就要标注与人相关的18个关键点。
以现在的技术水平,零售、自动驾驶、医疗等各行业要利用人工智能,都要先由人工进行数据标注,才能让机器在特定场景运用相应数据训练神经网络。因此,在专业领域,标注人员要有专业背景。举例来说,涉及医疗影像数据,标注员需要有医疗背景,能看得懂医学图像;涉及地方方言或者外语的智能化应用,标注者就要掌握这门语言。
由于数据标注是人工智能不可或缺的环节,所以标注的类型越来越多,也慢慢形成了一个产业。既有全球平台级公司搭建开放的数据平台,如Amazon Mechanical Turk,也有以标注为主业的创业公司,比如CrowdFlower、MightyAI等。目前,全球数据标注从业者超过千万,分布在中国、印度、马来西亚、泰国等人力成本低的国家。在中国的河南、贵州等一些内陆省份,数据标注已成为新兴产业,渐成规模。
数据标注的兴起,加速了人工智能的行业落地。比如,工业质量检测、设备缺陷检修等领域,机器得到的训练日益充分,已开始大幅度替代传统的人工作业。从起步的ImageNet数据集一直到产业的广泛引用,人工智能发展的背后都有数据标注者的辛勤贡献。
因此,我一直认为,数据标注者是人工智能革命的无名英雄。
现阶段,训练数据短缺是全行业遇到的瓶颈。很多视觉的细分类目下,用于训练的图片样本只有几个或者十几个;而若是样本量大,清洗、分析、标注等工作的时间和资金成本又让企业不堪重负。
●小数据样本深度学习
为解决因数据短缺而拖累深度学习落地的困境,人工智能研究者也开始创新深度学习的方法,提出“从少量数据中快速推理”的研究方向,以提升机器在少量标记样本下的学习能力。
就“小数据样本深度学习”探索,现在有三大前沿研究方向:一次性学习(one shot learning)、元学习(meta learning)和迁移学习(transfer learning)。
这三种学习均起源于人类学习。
人类在看过别人演示一两次后,就可以触类旁通,模仿并学会新技能。一次性学习强调机器用之前学到的方法与参数快速学习,避免从头开始学习所有参数。元学习也称学会学习(learning to learn),解决“机器学习如何学习”的问题,最终希望机器与人类一样,以少量样本就能迅速完成学习。
另外重要的一点是,小数据样本深度学习的技术方向是可以成立的。以儿童的学习过程为例,在简单教导后,小孩看到两三次某个物体后,就会自动识别且不会忘记。那么,经过大量标注数据的训练后,机器拥有的智能理论上也可以存储与延续。当其看到新的小数据样本时,就可以凭借过往积累的智能快速学习了。
●建立可解释AI
现阶段人工智能机器学习领域的主要研究方向是监督学习(supervised learning)、无监督学习(unsupervised learning)和强化学习(reinforcement learning)。研究人员正努力让人工智能可以不依赖人类训练,自己“观察”世界如何运转,并学会分析,建立洞察力,建立生成模型(generative models),通过真正了解世界来生成新的数据,创造新的世界。
目前机器学习中最为重要的深度学习技术,还没有能够完全超越模式识别,模型的可解释性很差。比如,基于模型训练,深度学习可以从医学影像素材中发现癌症迹象,却无法解释为什么特定的图像模式可能存在病变。未来人工智能的研究方向必将重新引入逻辑推理演绎,人工智能不仅要给出问题的答案,还要展现解决问题的方案。
以大数据为基础的深度学习经过七八年的发展,在处理相关性的问题上颇有优势,而在处理因果关系方面进展有限,已进入瓶颈期。
深度学习技术三巨头之一、图灵奖得主约书亚·本吉奥(Yoshua Bengio)认为,除非深度学习能够超越模式识别,并真正掌握因果关系,否则不可能发挥全部潜力。也就是说,深度学习需要了解“为什么”。
只有了解到因果关系后,人工智能才可以拥有人一样的思考力和智能度,也能更好理解人类的目标指令,进入更高一层的创新境界。
2019年,约书亚·本吉奥带领的研究团队创建出一套数据集,以概率形式描述真实世界现象之间的因果关系,如吸烟与肺癌的关系。以此为基础,团队又创建出了直接包含因果关系的多套综合数据集,且同步开发出一种能够识别简单因果关系的深度学习新方法。
即便是对新技术方向的探索,基础工作终究离不开数据。
行业落地,重要的是“相关数据”
基于数据的重要性,我一直主张,大数据和人工智能是同一价值链中的要素,无论是大数据还是小数据,行业落地应用中重要的是“相关数据”,而不是“大而全”的数据。
2009年开始,“大数据”成为科技行业的流行概念。其实,数据自古至今都是存在的,书籍的文字内容是数据,图片和视频是数据,一件文物的年代、尺寸和材料是数据,甚至人们的动作和行为也可以是数据。在很长的时间里,数据的记录和存储手段非常有限,比如,早期有甲骨和石刻,汉朝才出现纸张。这限制了数据的积累。
计算机出现后,数据开始电子化,存储成本越来越低。特别是进入互联网时代后,浏览搜索、网络社交、电子商务、游戏娱乐等用户行为产生大量数据,且互联网也能实时记录、保存和追踪这些数据,积累海量数据,这才有了大数据时代。大数据的四个特性可以简单概括为四个V:volume(大量性)、variety(多样性)、velocity(及时性)和veracity(真实性)。
大数据的产生,驱动了新的研究方法。利用大型计算机网络,数据从收集、存储、清洗、分析到应用,可以尽可能完整地还原特定对象的行为轨迹,以更大的样本量和更细的颗粒度进行分析。而过去只能用抽样方法进行分析,往往因取样偏差或者样本量不足产生错误的结论。
流媒体公司奈飞(Netflix)就利用大数据的优势取得了成功。2013年,奈飞上线热门剧集《纸牌屋》,其内容选择、剧情设计都归功于基于大数据的社交媒体分析。奈飞掌握了很多社交媒体的数据:它了解用户更喜欢看何种类型的内容,怎样的片段会选择重看,什么样的演员更受他们喜爱。这些全面的信息,对内容生产和运营的作用不言而喻。相较传统的通过收视率、票房或用户调研得出的结果,通过大数据所得出的准确性高出很多。
●找到“强相关数据”
用户源源不断地产生数据,目前对于企业来说,数据的收集和存储能力并不构成障碍。症结在于,90%的数据没有被真正利用起来,成了“废数据”。
主观上,这与机构的数据思维文化有关,并不是所有公司都能像奈飞、亚马逊那样推崇用数据说话;客观上,则与数据的相关度有关,比如一名用户10年前的互联网数据,对于分析当下或预测未来并没有太多的作用,时间序列上的弱相关度,大大减弱了数据的效力。
人工智能要落地行业,数据量大固然好,但更重要的是相关度要高,而不是简单的大而全。兵法上讲,“伤其十指不如断其一指”,大数据是一样的道理,要用力在关键的“一指”上,不必追求“十指”面面俱到。
相关数据,特别要强调与特定场景的相关度。现在,人工智能的应用针对的是某个具体任务或具体目标,需要的数据类型不尽相同。比如,传媒、金融、医疗等各行业需要的细分数据不同,具体到同一行业的子领域也不同。比如,在医疗领域,心血管疾病和癌症诊断所要的细分数据就不一样。
大部分人工智能的应用场景,都是针对一个具体的任务。比如,个人信贷鉴别申请者的信用风险,餐饮外卖确定最优的派送路线,资讯信息流做精准的个性化推荐……具体的场景中,起作用的主要是相关度高的数据。不同的数据种类,根据相关度来看也是“亲疏有别”。同样是信用无抵押借款,支付宝“花呗”可调电商交易数据,微信“微粒贷”能用微信社交数据。一般而言,交易数据的相关度会高于社交数据。
●重视小数据
以我过去合作的众多客户项目来看,由于目前的人工智能大都以完成特定任务为主,尚未出现通用型的人工智能,也没有无所不能的人工智能。相对大数据来说,能直接用起来的相关数据,往往是一种特定的小数据。
这里的小数据,指的是使用场景单一、对应算法简单、及时性较高、数量规模较少的数据。只要采集、存储、处理小数据集,就可以在商业应用中落地,产生作用,比如奈飞的打分数据。著名的AlphaGo,它的主要用途就是下围棋,其核心数据是过往对弈的棋谱数据。这些棋谱数据就是小数据。
可以说,大数据是宏观、全面的分析,小数据则是针对特定任务的具体分析。现阶段真正好用的其实是小数据。因此,我一直认为,人工智能不是大公司的专利,中小企业只要有意识地采集垂直领域的小数据,就有机会用好人工智能。
同样以奈飞为例。1997年,它以DVD在线出租起家,还没有那么强的数据能力,幸运的是,它早年就上线了用户打分功能。2007年,奈飞推出流媒体业务“Watch Now”(立即观看)的时候已经积累了20亿条用户打分数据。通过这些数据,就能够非常容易了解用户对内容的偏好。这个打分数据就是小数据,维度很单一,却非常契合奈飞的业务场景,对内容决策非常有用。
无论大数据还是小数据,归根到底,有价值的才是好数据。大数据和人工智能是同一价值链中的要素,激活价值链,让有用的数据动起来,就能驱动业务,进而在特定的场景中驱动价值。
当然,在大数据时代,小数据的内涵也会发生延展。比如,围绕个体的全方位数据更加重要。这里的“个体”不只是自然人的个体,也包括社会组织,如商店、企业、社会团体等。掌握全方位的个体数据,一个直接的好处就是可以精准推送个性化服务。
中国的互联网巨头们利用自身强势业务,以兼并收购、生态投资等各种方式,建立了庞大的To C(对消费者)业态,能够介入一个独立个体的消费、社交、信贷、娱乐、资讯等方方面面,方便获取个体的全方位数据。在人工智能时代,这种数据优势正转为巨大的竞争优势。
AI的竞争最终是数据的竞争
人工智能是算法、算力和数据三位一体,缺一不可,三者在产业竞争中的地位不尽相同。算法可以共享,比如在谷歌的TensorFlow、百度的飞桨(PaddlePaddle)平台上,开发者都能调用各种算法;算力可以采购,只要资金实力充裕,厂商可以寻找合适的设备商或者解决方案供应商,搭建大规模Docker6集群或者GPU集群。
随着互联网、开源、云计算等技术的发展,企业在技术上会越来越接近。不久的将来,超级摩尔定律下芯片计算力会有更大突破,人工智能作为一种技术能力将越来越普及,长期来看,技术能力上的差异会越来越小。在行业应用上,真正能建构牢固“护城河”的核心要素一定落在数据上。
我相信,未来3~5年,人工智能的竞争将会围绕数据展开。
那么,数据又从哪些维度展开竞争呢?
我认为,这场竞争会主要围绕着以下三点:
第一,数据的品质。比如数据的准确性、完整性、可追溯性、持续性、真实性和共享性。这些品质决定着人工智能模型的质量,也决定最终的落地成果。
第二,数据竞争存在先发优势。那些占据着特定的应用场景,并且更早、更多地获取数据的领域,人工智能的优势会更明显。
第三,数据的安全和隐私保护,决定了人工智能应用最终可以走多远。
●数据品质
数据的品质在某种程度上会决定算法的准确性。并且,以同样的初始算法起步,数据品质不同,筛选与迭代出最佳算法需要花费的时间不同。
针对特定领域的数据集越庞大、越真实、越准确、越可追溯、维度越丰富、越协同共享,越能得出最佳算法并带来竞争优势。
比如,在奈飞的网站上,围绕用户的维度,有性别、年龄、浏览过的电影、喜欢的明星、过往阅览记录等;围绕某个电影的维度,有年代、导演、演员、风格、题材、用户评价等。围绕两个主体的数据维度越丰富,越能在两者间建立精准匹配的关系,让企业以更好的体验扩大用户群,不断强化自己的优势。
我们看到,App(应用程序)的用户规模越大,往往越能更精准地满足个性化体验。比如,现在我们使用的一些音乐App已经能够精洞悉每个用户喜欢的音乐风格,并准确推送喜欢的音乐。
对如何提升数据品质,企业可以在两方面同时努力。在内部,要有系统的规划,实时采集和整理数据,建立长期数据积累;在外部,要有意识地构建生态体系或者寻找合作伙伴,尽可能多地获得相关数据,且搭建统一架构,帮助数据互通。
●数据的先发优势
数据竞争一定存在先发优势。企业越是占据特定的场景,更早、更多地获取数据,人工智能的优势就越明显。
现在,数据尚未全面商品化,企业与企业之间的数据交换尚未畅通。由于市场的复杂和竞争、数据安全和监管等原因,企业或机构不敢轻易开放数据,企业或机构需要通过自己的产品和生态体系来获得更多数据。从这个角度看,平台型科技公司基于自己强大的数据基因,占有完全优势。
长期来看,数据是可以创造收益的资产,是公司的核心竞争力,越早入局规划,越能占据主动。未来数据全面商品化之后,价值会非常明显。
●数据安全和隐私保护
作为未来企业的核心资产,数据的安全性一样重要。大数据时代,一旦丢失数据,损失也是巨大的。
数据安全有两层含义:一是保证用户数据不损坏、不丢失,这种情况发生的概率不大,数据存储在云端也安全得多;二是保证数据不泄露或者滥用,这是主要的关注点。
无论在电子商务、航空旅行、金融借贷还是医疗行业,全球已发生多起数据泄露的事件,引发公众的愤慨。2017年,单是美国征信企业艾可菲(Equifax)一家公司的信息泄露,就涉及多达1.43亿人的姓名、住址、出生日期、社会保障号和驾照等敏感信息。
人们不可能纵容自己的数据隐私被侵犯。任由信息泄露和滥用,公司会陷入舆论的漩涡,商业发展的困境最终会阻碍人工智能的发展。对数据安全和个人隐私的保护程度,决定了人工智能可以走多远。
国外若干代表性的法律法规也已出台,比如2018年生效的欧盟《通用数据保护条例》(GDPR),2020年1月生效的《2018年加州消费者隐私法案》(CCPA),这些立法正给商业运营和人工智能带来巨大影响。
2020年7月,全国人大常委会法制工作委员会在中国人大网公布了《中华人民共和国数据安全法(草案)》,并向社会大众征求意见,这会进一步规范行业内的行为和竞争。