1.3 立体视觉的形成过程
随着技术的发展,立体图像和视频的应用也越来越广泛,例如,近年来的3D电影、电视技术逐渐普及,这些应用促进了立体视觉的研究。立体视觉的产生大致分为三个过程。首先,给定构成立体图像的图像对(具有标准视差):左图像和右图像,在此阶段,双眼要同时观察这两幅图像;其次,视觉系统会通过观察到的这两幅图像,经过一系列的复杂处理融合成一幅图像;最后,视觉系统会结合心理因素将平面图像的信息转化成立体信息,最终产生立体视觉。到目前为止,经过研究者不断探索,视觉生理学和视觉心理学已经获得了很多的研究发现。这也是今年3D电影和电视技术逐渐得到推广的原因。当然,由于对生理学和人类视觉心理学的研究仍然在进行中,因此,目前的3D电影和电视技术可能还无法与真正的人类视觉系统相媲美,仍有很大的改进空间。
1.3.1 立体视觉系统的生理特性
生理立体视觉是由人眼的晶状体调节、运动视差、双眼会聚、双眼视差和融合图像等因素构成的立体视觉。人眼的晶状体调节是指外界图像在视网膜上成像的过程,它是根据睫状体的收缩和放松完成这个过程的。晶状体有自适应调节焦距的功能,根据不同的远近景,晶状体会通过改变形状来使进出的光线聚焦在视网膜上。当观看近景时,晶状体的弧度变弯曲,此时睫状肌的状态是收缩的;当观看远景时,晶状体的弯曲程度降低,此时睫状肌处于扩张状态,且屈光度数随之减小,以便使来自远处的光线恰好聚焦在视网膜上。
在深度认识的过程中,一方面是来自日常生活观察和经验的累积。例如,人们平时对看到的物体的大小和形状的认知,对纹理和结构的认知,对光线产生的阴影和遮挡的认知,对物体运动情况的认知,等等。通过了解人们日常观察的认知和经验,这些视觉线索被人们认为是距离信息或者深度信息,从而营造了一种深度感。另一方面,人的双眼是分开的,双眼瞳孔间的水平距离约为6.5cm,如图1.5所示。
图1.5 双目视差
当我们集中注意一个物体时,双眼就会将视线同时聚于该物体,此时物体就会在两眼中视网膜上的相应位置成像。但由于双眼间的差异,两个眼睛中接收的图像会有略微的差异,这种差异就称为视差。同样一个物体,当我们只用左眼观看和只用右眼观看时,会发现物体转动一定角度并向旁边移动了一些。我们从双眼中观察到图像的差异称为双目视差,根据这种差异就会产生立体的深度感。
当观察目标物体时,眼球内转使双眼视轴交汇于注视目标,这个过程称为会聚,如图1.6所示。外界信号会通过大脑传递给眼肌,而眼肌会通过控制眼球会聚到目标点。适应性调节和双眼会聚的共同作用才能完成一个注视的动作,大脑会通过认知来融合稍有差异的左右眼中的图像使之具有立体感。融合则是指把两个视网膜的对应点上的物像整合成完整的符合人的印象的功能。
图1.6 会聚过程
双目视差是使人眼产生立体视觉的因素,它分为相对视差和绝对视差。当在不同位置观看物体时,参考左右两眼的视网膜中央凹,绝对视差是指左右两眼上的两个投影点形成的角度。而它们的绝对视差之差就是两点之间的相对视差。如图1.7所示,相对视差是α−β,绝对视差是α、β。
图1.7 相对视差和不同观察目标下的绝对视差
由于当分别用左右眼去观察左右两张图时能融合成一个完整的三维图像,因此这说明视差携带了深度信息。在利用立体图对的方法来研究深度视觉问题时,Bela Julesz在美国贝尔电话实验室进行了实验。他开始时利用计算机产生两张相同的随机点的图,并将其中一张中的一点图像的随机点水平位移一个距离,这就构造了一对具有视差的图对。然后用双眼去观看,就会产生立体的感觉,这说明了双眼视差是立体信息。
在计算上,既可以从多幅图像中通过计算来获取深度信息,又可以通过单幅图像采用深度学习的方式来学习深度信息。现在市场上已经存在很多具有获取深度信息的采集设备。其基本原理既有采用双目视觉原理的,又有采用飞行时间(TOF)的,即通过发射信息到被测物体表面再反射回来的时间来估计其距离,典型的发射信号包括红外信号、超声波和激光等。如微软的Kinect设备通过红外信号来获取深度信息。
但绝大部分设备获取的深度信息都比较粗糙,一般其分辨率远小于可见光成像的分辨率。有时获取的深度图存在很多空洞,如深度图由于吸收了发射信号,因此没有反射信号,这时这个位置的深度信息就为空。这时候就需要采用计算技术来对深度图进行修复和增强其分辨率,传统用于可见光图像的修复和增强技术均可用于深度图的修复。
1.3.2 立体视觉系统的心理特性
视觉经验和视觉记忆是心理立体视觉的体现。当人们观察一张彩色照片时,可以根据照片的内容来判断物体及人物间的距离关系。这种在人类长期面对自然景物观看时产生的记忆和经验,使得观察者能够从一幅图像中提取出物体间的相对深度,这个判别通常是十分准确的。心理立体视觉可以由阴影、遮挡、几何透视、知识与经验等产生。
阴影是光的直线传播导致的,物体离光源越近的地方就越亮,反之则越暗,这种亮度的分布是一种心理深度的暗示。当物体投射出阴影且在运动时,实际效果看起来好像是物体离开了页面,并在页面上显示出该对象的阴影。阴影部分的工作原理是建立一个偏移量,该偏移量是物体和它投射到的表面的相对距离的线索,从而使人产生深度暗示。
遮挡是一个遮挡物掩蔽了本来物体的一部分,使人们看起来比本来物体更远些。这说明遮挡可以提供深度暗示。
几何透视是数学原理、科学和艺术的结合。几何透视运用到绘画中,能使人产生更清晰、更透彻的立体感。这主要利用物体具有近小远大的透视现象,这也是最常见的心理立体暗示。
当我们观察物体时,会利用我们对世界的认知和经验来判定物体间的相对深度。例如,当我们看到图片上的大楼和人一样大时,我们会认为人正在远离大楼且越走越远,因为我们知道大楼的高度比人要高得多。又如当人站在砖块路面上朝着远处眺望时,由于视网膜上的远处部分的砖块影像的数量很多,因此远处的砖块会显得越来越小,这便产生了深度知觉。
这种人类视觉的特性使得采用机器学习的方式来学习这种经验成为可能。在标记了大量数据的情况下,机器学习算法可能具有学习这种先验的能力。
1.3.3 立体视觉生理特性与心理特性的关系
图像在人眼中呈现的立体形态,看似很简单,其实蕴藏着复杂的原理,景物在视网膜上的成像是二维的,但是人脑能整合出原来不存在的三维信息。这就充分说明二维信息中隐含的深度信息被解读出来了,通常人们可以通过生理和心理的深度线索来感知深度感或立体感。
当人们观看物体时,都是通过观看者的眼睛来成像到视网膜上的。在两眼的视网膜上形成的像是有差异的,这就构成了立体的感觉,这就是立体视觉的生理特性。但是当不考虑两眼间产生的差异时,人们会根据观看到的物体深度关系产生立体的感觉,这就是立体视觉的心理特性。因此立体视觉的生理特性和心理特性产生的效果是一样的。
综合利用人类的这种生理特性和心理特性,可以在计算模型中进行模拟,从而使机器具有一定的人类能力,这是计算机视觉研究中的重要研究内容。现代深度学习正在这方面进行尝试,并取得了较好的效果。目前深度学习既可以从单幅图像又可以从视频中获取深度图信息。