
2.4 计算机视觉
1.什么是计算机视觉
计算机视觉是一门“教”会计算机如何去“看”世界的学科。计算机视觉与自然语言处理(Natural Language Process,NLP)及语音识别(Speech Recognition)并列为人工智能的三大热点方向。计算机视觉的理念其实与很多概念有部分重叠,包括人工智能、数字图像处理、机器学习、深度学习、模式识别、概率图模型、科学计算以及一系列的数学计算等,如图2-12所示。

图2-12 计算机视觉囊括范围
2.计算机视觉技术
计算机视觉从由诸如梯度方向直方图(Histogram of Gradient,HOG)以及尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)等传统的手办特征(Hand-Crafted Feature)与浅层模型的组合逐渐转向了以卷积神经网络(Convolutional Neural Networks,CNN)为代表的深度学习模型。
(1)物体识别和检测技术
物体检测技术一直是计算机视觉中非常基础且重要的一个研究方向。所谓物体识别和检测,就是给定一张输入图片,通过算法能够自动找出图片中的常见物体,并将其所属类别及位置输出(如图2-13所示)。当然也就衍生出了诸如人脸检测(Face Detection)、车辆检测(Viechle Detection)等细分类的检测算法。

图2-13 物体检测技术流程
(2)图像语义分割技术
从图像语义分割(semantic segmentation)字面意思上理解就是让计算机根据图像的语义来进行分割,语义在语音识别中指的是语音的意思,而在图像领域,语义指的是图像的内容,即对图片意思的理解(如图2-14所示)。

图2-14 图像语义理解示意
(3)三维重建技术
基于视觉的三维重建,指的是通过摄像机获取场景物体的数据图像,并对此图像进行分析处理,再结合计算机视觉知识推导出现实环境中物体的三维信息(如图2-15所示)。三维重建技术的重点在于如何获取目标场景或物体的深度信息。在景物深度信息已知的条件下,只需要经过图像像素数据的配准及融合,即可实现景物的三维重建。

图2-15 图像的三维重建
3.计算机视觉的应用场景
人对外界环境的感知70%以上来自人类的视觉系统,机器也是如此,大多数的信息都包含在图像中,那么计算机视觉具体有哪些应用呢?
(1)无人驾驶
无人驾驶是目前人工智能领域一个比较重要的研究方向,目的是让汽车可以进行自主驾驶,或者辅助驾驶员驾驶,提升驾驶操作的安全性。目前,这方面做得比较好的有谷歌的无人驾驶汽车、国内的百度无人驾驶汽车和图森未来的货运车。计算机视觉在无人驾驶中起到了非常关键的作用,比如道路的识别、路标的识别、红绿灯的识别、行人识别等。另外还用于其中的三维重建及自主导航,以辅助汽车进行合理的路径规划和相关决策。
(2)人脸识别
人脸识别技术目前已经研究得相对比较成熟,甚至机器人脸识别准确率目前已经高于人眼的识别准确率。很多高铁站及装有门禁的地方都用到了人脸识别,很多手机都有刷脸系统,有些城市甚至在银行取钱都可以直接刷脸。
(3)无人安防
随着计算机视觉的发展,计算机视觉技术已经能够很好地应用到安防领域,目前很多智能摄像头都已经能够自动识别出异常行为以及可疑危险人物,及时提醒相关安防人员或者报警,加强安全防范。
(4)智能识图
智能识图是我们生活中比较常见的计算机视觉应用。看到一件衣服或一个物品,想在网上找它的来源等其他相关信息,直接输入图片,以图搜图,很快就能找到很多该图片出现的地方以及很多类似的图片。