基于深度学习的目标检测原理与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.2 计算机视觉应用展现

在现实生活中,图像和视频是无处不在的,80%的网络流量是图像和视频。计算机视觉领域诞生的原因,就是需要学习人类视觉高效准确部分,摒弃错觉的影响,扬长避短。

计算机视觉应用非常广泛,如AI艺术。马里奥·克林格曼(Mario Klingemann)是机器学习艺术家和AI艺术先驱,他利用生成对抗网络(Generative Adversarial Networks,GAN)实现了“艺术创作”:通过模仿几千幅欧洲著名艺术家的画作,构建了一个AI面部生成器。精准的算法和模仿能力使这些AI作品看起来与大师的古油画没有什么区别,如图1-1-5所示。

资料来源:马里奥·克林格曼人工智能艺术网站。

图1-1-5 使用AI生成可以“以假乱真”的油画

还可运用计算机视觉重建三维立体图形。图1-1-6所示为3D重建的罗马斗兽场。

资料来源:Google Earth VR图像。

图1-1-6 3D重建的罗马斗兽场

可以从图像中提取哪些信息?可以提取的信息包括三维信息及语义信息。如图1-1-7所示,计算机视觉可以识别的语义信息大到整个公园场景,以及作为背景的天空及树、水、摩天轮,小到具体的雨伞及在排队的人等。

图1-1-7 语义信息识别

计算机视觉有很多前沿应用,其中很多都使用了深度学习技术,此处介绍几个绚丽而神奇的例子。利用循环生成对抗网络(Cycle Generative Adversarial Networks,CycleGAN)实现的图像风格转移,可以将图像从一种风格转换为另一种风格,如图1-1-8所示,把斑马(zebra)变成普通马(horse),把普通马变成斑马;实现夏(summer)景与冬(winter)景互相转换。还可以将图像(photograph)转变成画家的画风,如莫奈(Monet)、梵高(Van Gogh)、塞尚(Cezanne)和日本的浮世绘(Ukiyo-e)风格。

图1-1-8 CycleGAN转换

如图1-1-9所示,在纸上画一个如右下角所示的眼睛的简易图,利用三维生成对抗网络(3D GAN),即可生成各式各样、栩栩如生的眼睛。

图1-1-9 3D GAN画眼

利用生成对抗网络,可以进行一些非常艺术的渲染。可利用深度学习与计算机视觉相结合的技术,将抹布、充电器分别变为立体的海礁、火苗,如图1-1-10所示。

资料来源:Stanford Vision Lab。

图1-1-10 利用简单图像实现特效风格渲染

图1-1-11所示的图像是运用神经风格迁移(Neural Style Transfer)方法合成的图像。其中,图1-1-11(a)所示为日常生活的风景照,图1-1-11(b)所示为著名画家梵高的作品《星空》。对两者进行神经风格迁移时,在保留图1-1-11(a)的内容的前提下,应用图1-1-11(b)的风格,从而形成合成图像。如图1-1-11(c)所示,合成后的图像浑然天成,仿佛大师的新作。只要将艺术家的风格套用在普通图像上,所有人都可以做出美丽的油画。

注:彩插页有对应彩色图片。

图1-1-11 神经风格迁移图

在特效方面,运用计算机视觉处理,可依据形状和动作进行捕捉,如电影《加勒比海盗》中的章鱼船长,如图1-1-12所示。

资料来源:《加勒比海盗》特效制作纪录片。

图1-1-12 电影特效图

计算机视觉在三维城市建模中发挥了重要作用,与之前所提到的三维罗马斗兽场不同,如图1-1-13所示,微软的三维制图软件Photosynth通过对所拍摄的一幅幅图像建模,还原了整个三维图形。

人脸检测是计算机视觉最常见的应用,手机、照相机、智能安防中都有人脸检测的“身影”,如图1-1-14所示。

资料来源:微软三维制图软件Photosynth官方介绍。

图1-1-13 图像建模还原城市

资料来源:Sony相机人脸识别宣传册。

图1-1-14 照相机人脸检测运用

微笑检测比人脸检测更进一步,该方法只有在微笑时才能检测出,如图1-1-15所示。

资料来源:Sony相机Cyber-Shot系列宣传册。

图1-1-15 微笑检测

光学字符识别(Optical Character Recognition,OCR)也是常用技术,该技术可以将扫描的文档转换成文本并输出。运用光学字符识别技术,可以精确识别小区中的车辆、高速公路上的车牌,如图1-1-16所示。

资料来源:AT&T数字识别实验室。

图1-1-16 光学字符识别

汽车行驶安全中最重要的是行人检测。运用机器学习进行智能驾驶,首先应考虑路上的行人检测;其次是车道检测、信号灯检测、指示牌检测等。本书将介绍行人检测和车道检测项目。

将计算机视觉运用在无人超市中,Amazon Go是很好的范例。当消费者走进超市,一个智能摄像头就会识别出消费者,之后消费者拿取任何商品,摄像头都可以锁定消费者,即使把商品放到口袋里或一些不容易看到的地方,如图1-1-17所示。

资料来源:Amazon Go推广宣传视频。

图1-1-17 Amazon Go无人超市

基于视觉交互世界中,3D看房、宠物小精灵是增强现实运用的案例;VR可带领人身临其境,进入虚拟现实,如图1-1-18所示。

计算机视觉不仅在地球上得以运用,还可以帮助人类探索外星宇宙。例如,美国宇航局的火星探测车“勇气号”进行计算机视觉,包括全景拼接、三维地形建模、障碍探测、位置跟踪等任务。

资料来源:Pokemon GO宣传视频。

图1-1-18 视觉交互