1.1.2 计算机视觉:让机器看懂世界
* 关键词:计算机视觉 产业链 国内外发展
* 作 者:温晓君 王茜 冯晓辉
随着人工智能产业的不断成熟和应用场景的不断扩展,计算机视觉的优势逐渐凸显。凭借其对解放劳动力和提高工业、生活效率的作用,市场需求也将随之增加,未来计算机视觉将逐步渗透到人们的日常生活中。工业制造领域或将成为计算机视觉最广阔的应用蓝海。
1. 计算机视觉概述
(1)计算机视觉的内涵
计算机视觉是指用计算机来模拟人的视觉系统,实现物体识别、形状方位确认、运动判断等功能,以适应、理解外界环境和控制自身运动的技术。简言之,计算机视觉是旨在研究如何使机器“看”的科学,是人类视觉在机器上的延伸。计算机视觉综合了光学、机械、电子、计算机软硬件等方面的技术,涉及计算机、图像处理、模式识别、人工智能、信号处理、光机电一体化等多个领域。在深度学习算法的助力下,计算机视觉技术的性能取得了极大提升,成为人工智能的基础应用技术之一,是实现自动化、智能化的必要手段。
计算机视觉技术承自图像处理、机器视觉(Machine Vision)等技术,但三者又有所不同。图像处理是基于数字图像的基本特征对图像进行处理的技术。机器视觉是用机器视觉产品代替人眼进行目标形态信息测量判断的技术。与图像处理相比,计算机视觉往往包含图像处理过程,并增加了模式识别等功能;与机器视觉侧重精确的几何测量计算相比,计算机视觉更侧重于感知和识别。
(2)计算机视觉的技术体系
计算机视觉的关键技术可依据图像处理流程,分为图像处理技术、图像特征提取技术和图像识别判断技术,如图1-4所示。
图1-4 计算机视觉的技术体系
图像处理技术是基于数字图像的基本特征对图像进行处理的技术。图像处理一般包括图像预处理和图像分割:图像预处理包括平滑去噪、标准化配准、缺失值/异常值处理等;图像分割是将目标与背景分隔开来,方法包含灰度分割、专家经验分割、统计分布分割等。图像处理的目的是去除不相关信息,将目标从背景中提取出来。图像处理的作用在于加速训练进程、增加模型的稳定性,从而提高识别准确率。图像处理技术的关键在于动态复杂场景中背景模型的建立、保持与更新。当背景发生动态变化或被遮挡时,检测难度会大大增加。
图像特征提取技术是从图像中提取一组能够反映图像特性的基本元素或数值来描述原图像。特征提取是计算机视觉中较为初级的运算,其用映射方法将高维空间的原始低层特征变换为低维空间的高层新特征,从而有利于分类。可提取的特征包括颜色、纹理、形状、空间关系等。不同的特征有不同的提取方法,颜色特征的提取方法有颜色直方图、颜色聚合向量等;纹理特征的提取方法有统计法、信号处理法等;形状特征的提取方法有便捷特征法、傅里叶形状描述符法等;空间关系特征的提取方法有图像分割等。
图像识别判断技术是结合预测模型实现目标辨认、分类与解释的技术。当前,图像识别判断技术主要基于深度学习算法,后者是通过一系列多层的非线性变换对数据进行抽象的算法,用于模拟数据之间的复杂关系。计算机视觉领域主要的深度学习架构有GoogLeNet、ResNeXt、RCNN、YOLO等。图像识别判断技术依据识别种类可细分为生物特征识别技术、光学字符识别技术、物体与场景识别技术和视频对象提取与分析技术等。
(3)计算机视觉的产业链构成
计算机视觉产业链包含基础支撑层、技术提供层和场景应用层3个环节,如图1-5所示。
图1-5 计算机视觉产业链
(资料来源:赛迪智库整理,2017年10月)
基础支撑层包括芯片和底层算法两部分。芯片主要为处理数据、运行算法提供运算能力,是计算机视觉产业链后续环节的基础。定制化的视觉处理芯片能以较低的功耗带来优秀的图形处理能力,是计算机视觉技术性能的决定性因素之一。底层算法主要是人工智能的各类深度学习算法,可使计算机通过训练自主建立识别逻辑,大幅提升图像识别准确率。目前,用于计算机视觉的高性能芯片主要由英特尔、英伟达和AMD等厂商把持,国内外差距很大。底层算法库主要由微软等厂商垄断;国内的百度、阿里巴巴、腾讯等互联网公司主要致力于提供开源的深度学习平台。
技术提供层包括图像识别平台和嵌入式视觉软件两类。图像识别平台可直接提供应用服务,主要从大量信息和数据出发,在已有认识的基础上自动识别;嵌入式视觉软件则需要集成在硬件终端中使用,利用数字处理和智能算法理解图像和视频。具体的计算机视觉技术包含视频对象提取、视频追踪、人脸识别、场景识别、字符识别、物体识别等。目前,计算机视觉技术在科技巨头、技术型创业公司等的推动下蓬勃发展,但尚未形成成熟的产业格局,国内外众多创业公司有较大的发展机遇。
场景应用层包含应用系统开发和终端产品开发两类。与技术提供层的图像识别平台和嵌入式视觉软件相对应,计算机视觉的产品形式可依据应用场景的具体需求采用软硬一体化的终端产品形式。计算机视觉的应用范围十分广泛,可用于智能安防、智慧交通、娱乐营销、智能制造、医疗诊断等领域,还可集成于VR/AR、无人机、机器人、智能网联汽车等诸多终端产品中。目前,计算机视觉技术的应用仍处于起步阶段,该环节存在大量创业公司,他们致力于积极开拓产品线,将计算机视觉应用在工业制造和消费服务两大领域,未来必将开拓出广阔的发展空间。
2. 国内外计算机视觉产业发展现状
(1)国外计算机视觉产业发展情况
① 发展特点
国外大型科技公司加强计算机视觉技术自主研发,广泛应用于自身产品升级。谷歌打造结合计算机视觉等多项技术的“黑科技”,提供智能识别搜索;微软研究院“牛津计划”开放API为开发者提供认知服务;苹果基于iOS和macOS提供照片管理应用;IBM打造Watson技术平台;脸书搭建两大实验室专注于基础研究与产品应用,并与谷歌、VisionLabs公司合作推出通用计算机视觉开源平台。
并购重组成为整合产业链上下游与加速产业布局的重要方式。国外互联网企业以图像识别、建模公司为并购或合作对象,整合产业链上下游,加强计算机视觉技术在重要领域的应用。亚马逊收购以色列顶级计算机视觉团队用于无人机领域;谷歌收购初创公司Moodstocks、视觉追踪技术创业公司Eyefluence进军VR领域;英特尔先后收购计算机视觉技术开发公司Itseez、计算机视觉芯片开发商Movidius,在无人驾驶、核心芯片领域抢占先机。
国外知名高校设立计算机视觉实验室,高度重视相关技术研发。美国斯坦福大学、麻省理工学院以及加州大学伯克利分校等著名高校专门设立计算机视觉实验室。美国斯坦福大学的计算机视觉实验室以计算机视觉和人类视觉为重点研究分支,在计算机视觉方面重点突破目标识别、人类运动识别、材料识别等智能算法;加州大学伯克利分校的视觉团队以对象、人类和活动的识别为重点研究方向。
② 产业链各环节重点企业
计算机视觉产业链可以分为上游的基础支撑、中游的技术提供和下游的场景应用,基于此,国外计算机视觉产业链各环节重点企业可以归纳为表1-1。
表1-1 国外计算机视觉产业链各环节重点企业
(资料来源:赛迪智库整理,2019年10月)
(2)国内计算机视觉产业发展情况
① 发展特点
国内计算机视觉的优势以下游应用为主。计算机视觉产业链上游的软件开发和芯片设计环节的核心技术长期被国外垄断,我国的主要优势则集中于下游应用领域。数据显示,2015年我国计算机视觉应用的三大领域为:半导体与电子制造、汽车和制药,其占比分别为46.4%、10.9%、9.7%。随着消费升级催生出更丰富的应用场景,无人驾驶、娱乐营销、医疗诊断的应用需求日益攀升。
国内创业热度高涨,明星创业团队不断涌现。国内进入计算机视觉领域的公司数量在2011年后显著增加,2011—2015年平均每年增加的公司数超过10个(见图1-6),特别是涌现出了一批以依图科技、商汤科技、旷视科技、云从科技和格灵深瞳等为首的创业公司,其技术团队核心成员大多拥有前述工业界及学术界知名机构的研究经验。在我国人工智能细分领域企业数量分布统计情况中,计算机视觉与图像领域企业有146家,排名第一。排名第二、第三的分别为智能机器人企业(125家)和自然语言处理企业(92家)。
计算机视觉与图像领域融资金额领跑。截至2017年6月30日,我国人工智能融资金额为635亿元。其中,计算机视觉与图像领域融资金额为158.3亿元,融资金额最多;自然语言处理领域融资金额为122.36亿元,排名第二;排名第三的是无人驾驶/辅助驾驶领域,融资金额为107.15亿元。
图1-6 1997—2016年我国新成立的计算机视觉公司数量
(资料来源:36氪)
人脸识别成为竞争的热点,未来应用场景仍待深入。人脸识别是计算机视觉领域的竞争热点,2016年我国计算机视觉领域排名前五的公司全部以人脸识别为核心业务,而且均获得过A轮及以上融资。金融、安防领域的人脸识别均为重点布局场景,如旷视科技主攻人脸识别,为阿里巴巴旗下支付宝等金融平台提供面部扫描系统。未来,机器人视觉、无人机视觉也将成为人脸识别的重要布局领域。因此,可以说,我国的视觉识别技术探索应用虽处于初期阶段,但未来仍有广阔的应用发展空间。
② 产业链各环节重点企业
按产业链各环节划分,我国计算机视觉重点企业可以归纳为表1-2。
表1-2 我国计算机视觉产业链各环节重点企业
(资料来源:赛迪智库整理,2019年10月)
3. 计算机视觉技术的应用现状及趋势分析
(1)计算机视觉为智能安防保驾护航
计算机视觉在安防领域的应用主要有静态图像识别和动态图像识别。静态图像识别主要是指人脸识别、指纹识别、虹膜识别等生物特征识别,具有安全可靠、高效便捷、易于大量处理等特点,可用于身份鉴定、工作考勤、访客管理、公共场所安检等场景。动态图像识别主要是指视频识别、行为识别等视频对象提取与分析,可用于视频监控、疑犯追踪、人流分析、防暴预警等场景。
计算机视觉技术在智能安防领域的应用也存在一些问题和瓶颈。一是生物特征识别技术不够完善,指纹识别易用性高但安全性不足且易受影响,人脸识别和虹膜识别安全性很高但技术不成熟,受光线、遮挡等因素的影响仍然较大。二是市场处于初步探索阶段,产业细分程度不足,各领域的区分较为模糊。三是信息安全问题凸显,个人信息泄露是最大隐患。
生物特征识别技术将成为智能安防的核心技术,其中,指纹识别的市场份额呈现下降趋势,人脸识别将逐步成为主流的选择。基于生物特征识别技术的智能视频监控和智能视频检索将成为智能安防领域的两大热门方向,可通过不间断的海量监控信息,分析预测潜在的安防危险事件。当前我国的安防产业已进入建设高峰期,预计各细分领域未来5年的市场需求将有20%~80%的增速,总体年增长率将保持在20%以上。基于计算机视觉技术的智能安防将在商业、金融、工厂、学校、住宅、交通、监狱等领域或场景中得到广泛应用。
(2)计算机视觉将在智慧交通领域加速推广普及
计算机视觉技术在智慧交通与智能网联汽车领域的应用潜力巨大,可用于交通管理、辅助驾驶等方面。视频对象提取与分析技术可用于车牌识别、非法停车检测、车辆违章抓拍、疲劳驾驶识别、车流分析预测等场景。物体与场景识别技术是机器感知周围环境的基础技术,可协助汽车采集环境和地标数据、监测车道和道路、识别交通信号、监测车辆和行人目标等。
计算机视觉技术在智慧交通领域应用的问题和瓶颈在于:一是技术性能及成熟度不够,物体与场景识别技术仍处于早期发展阶段,产业化整体水平无法满足智慧化交通管理和高级别无人驾驶的需求;二是相关产品造价较高,阻碍了计算机视觉技术的推广应用;三是国内企业起步晚,主要集中于应用层面,底层关键技术储备薄弱;四是资源在产业间的跨界整合不到位,尚未形成完整的生态系统。
随着物体与场景识别、视频对象提取与分析等技术不断成熟,计算机视觉技术将在智慧交通及智能网联汽车领域加速推广普及,在车辆违章管理、交通事故监测、交通状况预测、高级别无人驾驶等方面得到应用。计算机视觉属于技术高度密集的产业,用户倾向于选择完整的产品服务,“软硬件+服务”“本地+云端”的整体解决方案模式将成为主流。
(3)计算机视觉进入娱乐营销领域,市场空间广阔
计算机视觉技术在娱乐营销领域的应用包括边看边买、图搜索(智能识别贴图应用)、智能植入广告、门店用户画像和人像美图等。其中,图搜索和人像美图受关注度较高。数据显示,2017年上半年网民对计算机视觉行业的整体了解程度还不深,但智能识别贴图应用以63.8%的了解比例位列各领域之首,网民对其余领域的了解比例均未超过五成。目前的应用案例见表1-3。
表1-3 计算机视觉技术在娱乐营销领域的应用分类
(资料来源:赛迪智库整理,2019年10月)
计算机视觉进入娱乐营销领域,应用不断突破,市场空间广阔。未来,基于视频图像的分析技术可以以广告形式与客户需求进行更精准的匹配,在视频中精准植入广告,提升转化率。即通过视频识别,对识别对象、物品建立判断标签,而后根据标签内容进行商品个性化推荐,计算机视觉技术的应用可期。
(4)计算机视觉被广泛应用于工业制造领域
机器视觉被称为“工业自动化之眼”,计算机视觉在工业自动化领域的应用被称为“机器视觉”。通过将计算机的高速性、可重复性与人眼视觉的高度智能化及抽象能力相结合,计算机视觉大幅提高了生产的柔性化和自动化水平,因此被广泛应用于工业制造领域。
图1-7所示为2014—2018年全球机器视觉市场规模。
图1-7 2014—2018年全球机器视觉市场规模
(资料来源:格灵深瞳)
半导体与电子制造是计算机视觉技术在工业领域最大的应用市场。半导体与电子制造品质要求高、迭代更新快,催生了视觉检测需求,成为计算机视觉技术最大的下游应用市场,应用于电子元件制造、集成电路制造、元器件成型、电子工模具等设备生产过程中的精密定位(引导)、检测、测量、读码四大方面。
视觉定位广泛应用于电子制造领域,为高精度装配操作和其他制造流程校准元件,视觉检测在电子元件中的应用大大提升了产品性能和生产效率。计算机视觉技术有效提高了工业在线测量的连续性和精准度,同时也显著提升了生产效率和产品质量。工业制造领域或将成为计算机视觉技术最广阔的应用蓝海。
(5)计算机视觉提升医学领域的智能化水平
计算机视觉技术应用在医疗影像诊断器械上,可提高检测效率与精确度。计算机视觉技术的应用可以高效完成对图像信息的采集、存储、管理、处理和传输,在图像资料的管理和利用方面实现质的提升。计算机视觉将图像采集卡、摄像头、算法软件等与各种医疗影像设备配套起来,帮助医生更快、更清晰地掌握患者的情况。成像结果分辨率高的特点将促使检测过程具有测温精确、快速等优势。
国内外的医学影像公司正助推计算机视觉在医疗领域的应用。DeepCare、推想科技、雅森科技等公司将计算机视觉中的图像识别技术应用于医学影像,提升医学领域的智能判断水平;Enlitic、推想科技等公司基于大量的电子病历,实现对医学影像的诊断分析,帮助医生提升影像诊断效率;Arterys、雅森科技等公司着眼于对医学影像数据本身的解读,帮助医生提高影像诊断的精准度。
随着人们对慢性疾病预防的日渐重视,全球的影像诊断设备市场规模不断增长(见图1-8)。我国的医疗器械市场规模位居世界第三,且医疗影像诊断设备在医疗器械细分市场中规模最大。国内外影像诊断设备的市场规模基础将为计算机视觉技术在医疗领域的应用提供重要支撑,为其带来广泛应用。
图1-8 2012—2020年全球影像诊断设备市场规模
(资料来源:中国产业信息网)
4. 展望与建议
(1)发展展望
随着计算机视觉技术的发展,其行业应用场景和范围将进一步扩大,这将极大地解放劳动力并提升生产、生活效率,市场成长潜力巨大。
① B端业务优先,C端业务发展
相对于C端(消费类用户),B端(商业用户)尤其是生产密集型企业对于计算机视觉具有更清晰的应用场景认知和更迫切的应用需求。从B端入手,计算机视觉产业更容易形成量产,并通过应用体验传播为大众普及奠定基础,进而向C端市场传导。目前一些商家正着力于布局工业、农业领域的计算机视觉应用,其中一些大规模作业过程并不像电商、安保监控那样对精度需求很高,有望成为计算机视觉继商业和交通应用之后的下一个应用热点。
② 物联网感知的前端智能化成为大势所趋
一些物联网应用场景具备很高的实时响应要求。例如,在安防领域,人脸分析算法智能安防摄像机使前端设备成为数据采集设备和DPU(Data Processing Unit,数据处理单元)的合体,既提升了图像实时处理速度,又可以处理云端难以解决的弱光、暗光等图像问题,提高监控效率。随着计算机视觉技术的进步,更多的物联网前端智能化产品将不断出现。
③ 软硬一体化的解决方案更具竞争力
人脸检测是计算机视觉领域发展最成熟、进入企业最多的一个领域。一些企业仅以视觉计算软件提供简单场景的人脸检测服务,由于技术壁垒较弱,导致竞争激烈,难以生存。计算机视觉技术的引爆点在于能解决复杂应用场景的识别问题,例如基于人脸检测的客流分析、基于机器人或智慧家电的视觉系统等。对于此类解决方案,单一的软件技术无法契合用户需求,用户更倾向于选择完善的、打包好的产品,从而避免使用时还需学习相关知识,浪费时间和精力。因此,高集成度、软硬一体化的解决方案在未来更具竞争力。
④ 优质场景数据的掌握和挖掘是关键
数据是计算机视觉公司发展的生命线。掌握大量连续不断优质场景的数据以及先进的数据价值挖掘技术,将对企业商业模式、数据模式的发展产生协同倍增效应。美国医疗影像识别领域的大量训练数据和图像被谷歌和脸书所垄断,小型计算机视觉创业公司发展严重受限。未来,计算机视觉创业公司的发展,或通过自有平台获取数据,或选择与拥有数据源的大公司进行合作,同时须选择一个具体场景进行商业落地,从而实现快速的数据循环。
⑤ 对机器认知机理的深入了解有望带来飞跃
计算机视觉的经典方法是运用神经网络,即深度学习的方式。由于机器认知事物的规则需要被预先设定,而这种设定不能被穷举,因此错误不可避免。目前的神经网络系统中虚拟神经元处理信息并互相连接的运行方式对于人类来说还属于黑匣操作。只有深入了解机器神经网络每一层的机理和每一次逻辑推算的方式,才能确保机器的行为具有可预测性。届时,包括计算机视觉在内的人工智能技术将会迎来一次质的飞跃。
(2)促进我国计算机视觉产业发展的措施与建议
① 强化原始创新,增强技术产品源头供给
围绕未来长期的国家战略以及行业和民生应用需求,寻求在人工智能、计算机视觉基础前沿理论、底层软硬件平台与架构、核心制造工艺、关键零部件配套等领域形成变革性突破,强化创新源头储备。
② 壮大创新主体,培育计算机视觉创业独角兽
鼓励计算机视觉相关创业企业、创业团队与国内外顶尖高校实验室、科研机构和独立技术团队以入股、收购等方式深度绑定,形成完善的产学研组织体系,加速成果转化。培育形成一批核心技术能力突出、集成创新能力强、引领技术演进和产业生态发展的独角兽企业,以个体优势形成群体突破。
③ 建设一批支撑高水平创新的基础设施和公共服务平台
在计算机视觉领域建设一批具有国际水平、突出产业交叉融合和协同创新的国家工程实验室。加快建设和利用好超算中心、云计算中心等信息基础设施,形成基于大数据的先进信息网络支撑体系。引导社会资本加快科技服务和产业服务公共平台建设,提供共性技术研发设计、中试熟化、检验检测认证、创业孵化、知识产权交易等各类服务。
④ 推进重点行业领域试点示范应用
瞄准行业、民生、公益应用需求,加快计算机视觉技术和解决方案的应用。鼓励地方、企业组织实施应用示范项目,探索可推广、可复制的应用模式和商业模式,总结优秀案例和发展经验并宣传推广。