《AI前线》2019年1月
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

人工智能就是统计学?遇到彼此是幸运

作者|氪信闵薇

华为创始人兼CEO任正非1月20日在接受央视《面对面》采访时,谈及基础研究和基础学科的重要性时说,人工智能就是统计学,计算机与统计学就是人工智能。无独有偶,去年8月,诺贝尔经济学获奖者Thomas J. Sargent在世界科技创新论坛上也表示,人工智能其实就是统计学,只不过用了一个很华丽的辞藻。作为数理统计背景的人工智能从业者,非常欣慰世界级的企业家和专家学者为统计学在人工智能中“根正苗红”的地位摇旗呐喊,在此也分享一下本人对于统计思维如何影响AI产品和AI研究工作的经验看法。

我们每天都在主动或被动接受各种信息和知识,头条系个性化的精准推荐以及Google专业的搜索查询,这些看似不同的问题,背后都有数理统计的身影。推荐引擎的核心算法协同过滤是基于矩阵分解技术,搜索引擎的核心算法PageRank,是图特征向量中心度的表达方式。在感知技术中,AI在语音识别和图像识别上分别取得95%和99%的准确率,无论是统计语言模型还是深度网络模型,也主要依赖概率论,贝叶斯理论和最优化理论等数学统计方法作为基础工具。强人工智能阶段的本质就是基于数据的学习和推理,而统计学就是learning system里最必不可少的“轮子”。

统计学不仅是解决算法和模型问题的基础,统计思维对整个学习过程——包括人机协作数据获取,算法研发以及结果分析都有着巨大影响。经典的统计概念:观测对象(Population)→业务目标(Question of Interest)→训练样本表征(Representativeness of training data)→结果分析(Scrutiny of result),这套数据分析和建模的思维过程也是AI产品和研究非常重要的思维框架。

Population:观察对象所产生的条件和环境,是统计推断和学习的基础;

Question of Interest :建模目标和研究对象,需要依赖领域专家和业务知识确定分析和预测的目标;

Representativeness of training data:是统计推断中最重要的部分,训练样本表征是否有充分的信息反映与建模目标之间(Question of Interest)的关系,训练样本的分布是否与观察对象(Population)的分布一致;

Scrutiny of result:是对模型效果的检测,包括模型的稳定性,可复现性,算法可解释性,以及结果的业务解释性等。

这套PQRS框架是华人统计大牛Yu Bin教授(伯克利统计系系主任,美国科学院院士)在2017年底发表的论文artificial intelligence and statistics中提出的。本人有幸与Yu教授有过较长时间的项目合作,这套理论也一直影响本人在人工智能产品落地和研究中的理念,拒做“调包侠”,深耕业务场景。尤其对于氪信这样专注于AI+金融领域的人工智能科创公司来说,我们需要追求结果的解释性和业务的因果分析,既有用AI解决大数据的能力也有解决小数据的能力。因此统计思维决定了我们的产品和服务的“厚度”,让我们更懂客户需求。

由此可见,人工智能里的统计学,不仅是不需要重复构建的“轮子”,更是一种结合人类知识和智慧的思维方式。统计思维框架提出了一个非常有效的概念,把人的知识融进AI黑魔法中,让AI产品在充满变数和挑战的环境下正确有效地执行,从而产生真正的价值。当然,人工智能也不仅仅是统计学,AI在不同方向上结合了大量基础学科知识,如强化学习借鉴了大量的认知科学成果,遗传算法等大量仿生智能算法。引用我喜欢的一段话,“持开放的态度对待人工智能技术,人工智能的核心是创造智能而不是解释世界,为了造出智能,AI人愿意拥抱一切学科,也拥抱一切泡沫”。