第2部分 构建城市大脑,完善城市数字基础设施
第3章 构建城市的感觉神经系统
3.1 构建物理世界的数字孪生城市
在城市信息化浪潮与数据科学崛起的共同推动下,智慧城市开始在全球范围内成为未来城市发展的新理念与新实践,大数据、数据活化、数据挖掘等数据管理、应用与分析技术在智慧城市建设中具有核心作用。在智慧城市技术体系的总体框架中城市感知负责对城市环境中各方面的数据进行感知和收集,处理和自动控制采集的信息,并通过物联网、传感网、新一代互联网等新型网络技术对感知数据进行传递、路由和分发,将数据定向汇聚到合适的位置。通过将海量的城市数据进行分类和聚集,采用数据关联、数据演进和数据养护等技术实现对数据的活化处理,为服务层提供活化数据支持。而对于数据的使用,则需要进一步封装底层数据和活化服务,为智慧城市上层应用的开发提供复用和灵活部署的能力,如云平台、可视化与仿真、公共数据引擎等平台与服务等。智慧城市体系架构的最顶层则是不同规模和不同发展类型的城市,这些城市基于各自的发展阶段,掌握的各类数据资源及所需的核心业务不同,应选择和开发适合自身特点的智慧应用。此类应用一般行业特性较强,而应用服务层的共性技术主要包括安全与标准两个方面。
在信息技术革命的推动下,以计算机、网络通信等信息通信技术为动力的信息化浪潮席卷全球。经过20多年的信息化与数字化建设,现代城市的运行方式与城市居民的生活环境已经发生了根本性的改变。城市的经济、文化、交通、娱乐等方面都已经和信息化的数字空间紧密融合,网络空间(Cyberspace)成为城市居民生活的组成部分。完善的信息基础设施,以及丰富的数字化应用成为现代数字化城市的基本特征之一,丰硕的城市信息化建设成果在为人类生活带来极大便利的同时也为现代城市形态的进一步演进奠定了技术与数据的基础。
进入 21 世纪,以大数据及数据活化为代表的数据科学与技术开始受到人们的广泛关注,以数据为中心的研究方法与技术理念在信息、生物、能源、医药、社会学等不同的学科领域都得到了广泛应用与认可,并促成了大量科研成果的诞生。以信息技术为支撑的数据分析与研究方法正深刻地改变着传统科学探索的工作方式,成为人类科技发展与知识获取的一种新兴模式。在城市信息化浪潮与数据科学崛起的共同推动下,智慧城市在全球范围内成为下一代城市化发展的新理念和新实践。在智慧城市理念及实践要求日趋成熟,大数据等核心技术广泛应用的新时代环境下,基于大数据技术构建物理世界的数字孪生城市对智慧城市的发展有着极其重要的意义。我们在智慧城市建设领域有多年的潜心研究和落地实践,尤其是在城市态势感知领域中秉承以前沿技术研究为引导,用户实际需求为驱动的基本原则,在全国落地了 200 多个实战案例。这些案例涵盖了网络空间态势感知、物联网态势感知、工业互联网态势感知和工业控制态势感知等众多态势感知子领域,积累了大量的实践经验,为基于大数据技术构建物理世界的数字孪生城市等前沿技术研究提供了实践经验和依据。
数字孪生是通过对物理世界的人、物、事件等所有要素数字化在网络空间再造一个与之对应的“虚拟世界”。从而形成物理维度上的实体世界和信息维度上的数字世界同生共存且虚实交融的格局,实现对物理世界的变化的可感与可知。犹如人类的感觉神经系统,数字孪生城市可通过对城市数据的动态监测、分析、整合和利用,实现对物理世界城市生活环境的透彻感知、城市资源的全面调控、城市中各个部分协调配合和城市方方面面的便捷运作,从而构建人和城市之间和谐的新型城市形态。在数字孪生城市的构建过程中数据和核心技术是最基础的必备条件,而现实所需的业务应用,以及对城市未来应用的期望和探索则是数字孪生城市不断发展演进的核心驱动力。
3.1.1 数字孪生城市所需的数据类型
在数字孪生城市的构建过程中,城市的信息基础设施在提供信息服务功能的同时也积累了海量的城市动态数据。这些数据种类繁多,难以尽述,在这里我们对较为常用的城市数据类型进行简要的介绍。
(1) 地图与兴趣点数据。
街道与建筑是城市的基本构架,地图数据是对城市构架进行描述的基本方式,而兴趣点数据则是介绍城市各功能单元的基本信息。因此城市地图和兴趣点数据是构建物理世界的数字孪生城市的最基本元素,也是在与其他类型城市数据进行融合时的空间锚点数据。
(2) GPS数据。
安装有GPS接收芯片的移动设备可以收集城市中人、车等流动物体活动信息,如目前应用比较广泛的浮动车技术就是在出租车、公交车等公共交通工具上安装GPS设备,将其作为传感器对于城市的交通情况进行采样。安装有GPS接收芯片的智能手机也可以作为个人行为轨迹的收集设备,但是由于隐私、安全等诸多问题,手机GPS数据很难大规模收集应用,目前只能依靠志愿者进行小范围收集和研究。
(3) 客流数据。
城市中市民采用不同交通工具日常出行的数据称为“客流数据”,出租车的客流数据可以使用浮动车GPS数据配合出租车计费表的乘客状态获得;公交车与地铁的客流数据则可以使用市政交通一卡通的刷卡记录进行收集。客流数据包括的城市活动信息非常丰富,可以用于城区功能分析、人口流动监测、城市交通系统评估、多交通工具人类行为研究、城市交通经济学研究等领域。
(4) 手机数据。
手机是人们日常生活必不可少的通信工具,所能提供的数据类型很多,包括通信录、通话记录、GPS定位信息、与基站间的信令记录、上网记录和APP使用记录等。这些数据可以反映城市中居民活动的兴趣偏好、活动范围、规模频率和社交关系等内容,因此具有巨大的应用潜力。
(5) LBS(Location Based Service,位置服务)数据。
LBS位置服务是移动互联网时代一种新兴的网络服务方式,通过LBS应用所收集到的数据具有明确的地理位置坐标并兼具传统Web服务的语义特性。LBS数据是对兴趣点数据的一种深度的描述和补充,与地图和兴趣点等简单的城市地理数据相比,它包括大量的语义信息,可以帮助人们更加深刻地理解城市运行动态。
(6) 视频监控数据。
视频监控技术已经被广泛地应用在交通管理、社区安保、室内安防、娱乐通信等城市生活的各个方面,视频监控设备所采集的海量视频数据记录了城市中居民生活的分分秒秒,在数字空间中形成了对物理城市的虚拟“映像”。充分利用这些视频数据可以从某种程度再现城市生活的历史,它们具有巨大的理论研究与应用价值。
(7) 环境与气象数据。
气象数据很早便受到城市科学研究的充分关注,近些年随着人们对于环境与健康问题的日渐重视,以空气质量为代表的城市环境数据也开始成为人们关注的焦点。城市的环境与气象数据的一个重要的特点是其地理与时间采样密度低,如何实现细粒度和高精度的环境与天气数据收集和分析是该应用类数据面对的一个重要挑战。
(8) 社会活动数据。
城市社会活动数据包括城市中的人口户籍、金融物价、医疗卫生、能源消耗等各种社会动态数据,是深入理解和分析城市社会化行为的必备元素。由于城市社会活动数据行业性较强,容易受到行业条块分割的影响,因此往往彼此分割孤立。打破行业条块分割,实现多源异构城市数据的融合是深度利用城市社会活动数据所面临的首要任务。
3.1.2 数字孪生城市的数据特性
数字孪生城市的数据特性如下。
(1) 大数据特性。
大数据具有规模性(Volume)、多样性(Varity)、高速性(Velocity)和价值性(Value),即4V特性。
城市是人类活动最为密集的区域,海量的人类活动与社会运行数据不可避免地在城市中爆发。以北京为例,每天有超过千万的市民出行,交通卡每天产生5 000万条刷卡记录;有900万的车辆在运营,每天仅出租车GPS数据就会产生8 000万条左右;同时有近万个交通固定检测器在采集车辆的瞬时车速;有近亿万条的手机通信数据;还有千亿字节级的交通影视影像数据。城市数据种类繁多;规模庞大;对数据的输入和处理速度要求高;城市数据包括的信息与知识极为丰富,对于推动人类认识的扩展与科学技术的进步有巨大的价值。综上可以看出城市数据完全符合大数据所具有的 4V 特性,可谓是大数据概念范畴中的一个极具代表性的典型样本。
(2) 时空多维特性。
以地图为基础的空间结构是城市数据的一种基本组织方式,而城市快节奏的生活方式也使得城市数据对于时间维度的变化非常敏感,因此时空多维特性成为城市数据的另一个重要特点。在空间上,根据城市地理规模的不同,城市数据具有不同尺度的空间跨度;在时间上,根据产生的时间不同,城市数据具有与事件相关的变化和分布。在进行城市数据分析和应用时,一方面需要考虑时间和空间两个维度的数据演化特性,另一方面还需要充分利用时间和空间不同维度之间的数据关联关系,这对城市数据的利用技术提出了很高的要求。
(3) 多尺度与多粒度。
研究和利用城市数据除了要考虑时间和空间等多个维度之外,还需要考虑数据尺度和数据粒度对于数据特性的影响。在规模的尺度上,城市可以分为小型城市、中型城市、大型城市、超大型城市等;在地理尺度上,对于城市数据的描述可以小到几个街区或大到数千平方公里;在时间尺度上,城市数据的覆盖时间可以短到一些事件的监控,长到上百年的城市变迁;在地理采样粒度上,可以像遥感测绘数据一样精确到数米,也可以像气象环境数据一样以区县、地区,甚至省市为单位;在时间粒度上,根据数据采样设备的时钟、存储与传输能力,以及计算速度等因素产生不同的时间粒度。在时空多维度的条件下,高效处理多尺度与多粒度的海量数据是有效利用城市数据所必须解决的核心技术问题之一。
(4) 多元与异构。
如前所述,城市数据具有非常多的类型与来源,即数据的多元性。这些不同来源的城市数据无论是从结构上、组织方式上,以及维度尺度与粒度上都会存在巨大差异,即数据的异构性。智慧城市的应用需求要求我们必须将这些多元异构数据进行有机融合,通过挖掘活化数据之间的相关性与相互作用方式来获取新知识,如何在一个统一的构架上分析异构性极强的多元数据是构建物理世界的数字孪生城市面临的一项共同挑战。
从上述构建数字城市所需的数据类型和其特性的内容可以看出现有工作对于处理城市数据的应用类型还非常有限,城市作为人类生活活动最为密集的场所,所产生的数据类型和数量都是难以尽数的。仅就现有的智慧城市研究与建设工作来看,我们对于城市数据的开发还远远不足,城市这座数据宝库中积累了无尽的数据资源等待我们进行深入的开发。
3.1.3 构建数字孪生城市所需的核心技术
构建数字孪生城市所需的核心技术如下。
(1) 数据感知技术。
构建物理世界数字孪生城市的技术从顶层设计到具体的技术细节均以海量的城市数据作为核心支撑,因此城市数据的感知与获取技术就成为数字城市建设的整体技术基础。传统的城市传感器技术在为不同的行业应用提供服务的同时也直接或间接地收集到了大量的城市动态感知数据,这些数据使得现有的数字城市建设工作成为可能。然而传统的城市传感技术所采集的数据繁杂不一,难以统一和利用。我们在众多项目实践过程中总结出了一整套多源异构数据采集、接入和整合的方法论,并形成技术研究成果用于指导项目建设。该技术成果在构建数字孪生城市过程中,有效整合并利用传统传感技术产生的数据起到了至关重要的作用。
随着移动互联网的兴起,人们可以随时随地记录和分享自己的所见所闻,使得“以人为传感器”对城市进行感知的群体感知技术开始日渐兴起。例如,使用微博数据对 2012年北京市“7·21”暴雨的积水点进行检测,其结果与实际积水地点基本相符。目前,群体感知技术在智慧城市应用中还只是传统数据获取方式的一种补充。相信在不久的将来,该技术将会逐步走向前台,成为智慧城市应用的一项主要数据来源。
(2) 数据管理技术。
海量城市数据的存储、管理与检索是一项非常具有挑战性的工作,已有的一些研究工作说明分布式数据库、Hadoop等现有的数据管理方式尚无法完全满足智慧城市应用对于海量数据查询与管理的实时性和灵活性要求。造成该问题的根本原因在于用于智慧城市应用的海量城市数据并非专门为建设智慧城市而收集(多为城市信息化和数据化过程中的信息基础设施收集),数据管理系统的设计者更多考虑的是其初始的数据应用需求,而没有对智慧城市应用做任何数据管理优化;同时城市计算等智慧城市技术在数据利用方面又有异常广阔的想象空间,即便是智慧城市研究的专家也无法列举所有可能的应用模式。这就导致了数据管理系统的设计者在开发系统时无法获知系统应用者的具体应用需求,从而引起数据管理系统与应用系统之间的不匹配,影响系统的整体性能,如何解决这一问题目前尚无成熟的技术方案和支撑理论。
(3) 数据挖掘技术。
数据挖掘技术是大数据时代进行数据利用和知识发现的另一项核心关键技术,构建以数据为中心的智慧城市也必然需要数据挖掘技术的大力支持。该领域中一个主要的挑战在于如何在海量多源的城市数据中寻找合适具体应用的数据子集。例如,城市动态检测研究往往需要所使用的城市数据子集尽可能多地涵盖城市动态特性的各个方面,而具体的附加行业应用则要求数据信息更加准确可用。这些互斥性的数据需求给城市数据的收集、管理和挖掘都带来了巨大挑战,解决好数据子集的选择问题与子集间不同数据的融合问题是在智慧城市领域进行数据挖掘研究的关键所在。
(4) 数据活化(data vitalization)技术。
数据活化概念是由北京航空航天大学熊璋教授所提出的一种全新的数据管理与应用模式,即赋予数据生命。该技术的核心在于将真实物理世界中的数据内在联系映射到数据存储与管理的数字空间中,使存储空间中相互隔离的数据变为一个有机的整体。恢复数据在物理世界中的关联性,并突破信息空间在数据利用时的局限性。数据活化体系结构采用“活化细胞”(Vitalized Cell)对数据进行组织。该细胞作为数据组织和管理的最基本单元,一方面具有存储数据的能力;另一方面也具有映射物理空间中数据联系与相互作用的计算能力。活化细胞在存储数据的同时会根据实际应用的不同,不断地学习用户应用行为并对细胞中的数据进行重组织,使数据可以更好地适应多样化的用户需求;同时当物理世界中数据描述对象发生变化时,活化细胞还可以通过自主演化的方式来改变数据的存储结构和内容,从而实现存储数据的代谢与演化过程。
数据活化技术非常适合追踪物理世界中的对象实体在数据空间中的映射演进过程,是处理海量城市数据及构建智慧城市的有力工具。熊教授等学者使用数据活化的思想设计了一种海量城市数据联网的数据组织工具(Internet of Data,IOD),该工具可以对现有物联网数据进行活化组织,非常适合城市中海量物联网与传感器数据的管理。使用数据活化技术对监控视频数据进行结构化描述,可以用于解决城市视频监控数据的高维度和非结构化问题。除此之外,数据活化技术也受到了工业界的密切关注。美国Bardess Group Ltd公司基于数据活化技术开发了一种Data Revitalization的数据管理解决方案,该方案的数据管理架构共由5层组成,并且具有更新、学习和演进的能力。使用该架构可以有效提高企业数据资产的整体管理质量,如图3-1所示。
图3-1 Data Revitalization解决方案架构
数据活化技术已经在智慧城市、视频数据分析、企业数据资产管理等数据密集性应用领域初步展示了其技术优势,使用该技术对城市数据的组织与管理方式进行重构,从数据的底层结构开始实现数据的智慧化将会是未来智慧城市技术研究的一个重要的发展方向。
(5) 数据可视化技术。
智慧城市技术是一种与普通民众生活紧密结合的应用技术,友好亲切的服务呈现方式是其中必不可少的环节。数据可视化技术能够将纷繁复杂的城市数据以一种简洁有序的方式呈献给用户,可以很好地填补技术到用户之间的理解鸿沟。在城市数据应用的推动下,数据可视化必然会成为未来智慧城市技术体系中至关重要的一环。
(6) 统计物理学理论。
物理学是研究物质世界最基本的结构、最普遍的相互作用、最一般的运动规律及所使用实验手段和思维方法的自然科学。基础物理理论对于工业应用技术的影响是往往是变革性的,17世纪牛顿经典力学引发的工业革命,以及20世纪量子力学引发的新技术革命都是非常好的证明。进入21世纪之后,人类活动行为的基础理论研究成为统计物理学的一个新兴研究热点,复杂网络理论及人类活动时空动力学等研究成果不断涌现,这些成果必然会引发城市技术发展的巨大变革。在这样的大趋势下,谁能够更好地利用统计物理学的相关研究成果,谁就能够在日趋激烈的智慧城市技术竞争中占得先机。
3.1.4 构建数字城市在交通、能源、居民生活等多方面的应用
1.数据驱动的智能交通
城市交通系统是城市中信息化程度较高的部分,浮动车、一卡通、微波线圈、摄像头等交通传感与信息化设备可以有意或无意地将城市中交通参与者的交通行为记录下来,从而为数据驱动的科学研究提供研究样本;同时由于城市交通领域自身的数据富集优势,又使得以数据为中心的智慧城市技术能够率先在智能交通领域中发挥重要作用,我们称这类技术为“数据驱动的智能交通技术”。以数据驱动的智能交通技术研究中所采用的城市数据主要包括地图与兴趣点数据、GPS数据、客流数据、道路微波测量数据等。通过多种手段对采集到的数据进行分析和理解,实现感知城市的交通运行状况,为市民提供交通引导、导航、推荐等智能服务。
数据驱动的智能交通技术可以被细分为支撑层面和应用层面两个层次的研究。
支撑层面的研究集中在全城交通的感知与分析方面,其目的是感知城市的总体交通状况、分析全市交通的统计行为特征,并建立分析模型为具体的智能交通应用提供数据分析与交通状态评估支撑。例如,基于城市交通监控数据的实时路况报告作为一种成熟的技术已经得到非常广泛的应用,对于城市中具有特殊特性路段的检测和查询索引、平均通勤时间评估、交通异常与事故的检测等研究可以极大地提高城市道路交通的管理效率;另外通过对GPS数据的深入挖掘和分析,可以进一步理解城市中交通运行的具体模式,提供交通流量的评估、预测和管理等应用服务。
应用层面的研究则集中在城市交通管理与运行的各项服务应用中,基于GPS的路径导航服务是最为典型的应用之一,丰富详尽的地图数据配合实时的路况分析结果可以为用户提供非常优质的行驶路径导航服务。包括人类的行为信息和车辆的GPS数据提供给司机可以进一步优化导航路径的选择。微软亚洲研究院开发的T-Driver车辆导航系统就采用了这样的设计理念,该系统统计了北京市城区出租车的GPS行驶数据,然后将不同地标之间驾驶技术最娴熟的出租车司机的驾驶路径用图的方式组织起来形成了一张包括出租车司机驾驶知识的地标图。用该地标图来进行路径导航,可以有效地提高车辆在拥堵时段的行驶效率。该研究的主要特色在于将数据统计中获得的人类智慧应用到传统的信息化交通服务中,将车辆导航应用由传统的“以计算为中心”变为“以数据为中心”。所采用的核心技术也由传统的规划技术变为以数据为驱动的统计技术,其意义非常深刻。
另一类被广泛研究的应用是出租车与乘客之间的推荐服务。该类研究最重要的任务是理解出租车与乘客的行为模式,以及两者之间的交互关系。法国电信研究院研究小组通过对 5 350 辆出租车驾驶行为的研究,分析比较了不同出租车寻客策略的有效性,对如何通过优化出租车的载客策略来提高出租车司机收入进行了深入研究。北京航空航天大学的徐老师等通过对北京 1 200 辆出租车的乘客数据分析,研究了优化的乘客打车策略,并基于该研究开发了名为“TaxiWaiter”的打车辅助系统。T-Finder系统则同时考虑了出租车与乘客两个方面的需求,通过对街道打车概率的统计和分析来推荐出租车寻客路线和乘客打车路线。
路径导航(行车路线推荐)、出租车寻客路线推荐和乘客打车地点推荐都属于由资源约束的分配推荐问题,其本质是一个带约束的多方博弈,现有的技术提供的均是局部优化的解决方案。博弈论的相关知识告诉我们分布式的局部最优并不能保证带来最终的全局最优解,如果所有的出租车均按照推荐的行驶路线到乘客较多的地点争夺乘客,那么一方面会导致这些地点成为较难寻找顾客的地点;另一方面还会导致其他地点的乘客由于缺乏出租车而打不到车。解决该问题的一个途径是采用集中调度的手段实现全局的车辆负载均衡,这种方案虽有较好的理论性能,但是实现起来非常困难;另一个途径是在推荐算法的设计上引人博弈惩罚机制,以多轮博弈的方式实现分布式的全局最优,相关的理论与应用研究还需要进一步深入探讨。
出租车行驶的异常轨迹检测也是智慧城市建设非常关心的问题,如何区分出租车司机为躲避拥堵而进行的适当绕行和恶意的“宰客”绕行是该类问题要解决的核心问题。法国国立电信学院设计提出的iBAT/iBOAT算法可以有效地对绕行出租车进行在线识别或轨迹识别,其分析结果显示偏爱绕路的司机所对应的月收入并不比不绕路司机的平均值高。一些司机想通过恶意绕行来增加收入往往只是一种心理安慰行为,这对于设计合理的出租车收费政策和避免司机恶意绕行有非常重要的价值。
以数据为驱动的智能交通技术还可以在优化城市公共交通系统方面发挥巨大的作用,B-Planner 系统使用出租车 GPS 数据所提供的城市通勤需求信息重新设计了杭州市夜间公交车的行车路线,满足了不同时段人们对公交线路的不同需求;T-Share出租车拼车系统通过综合考虑打车人的位置、目的地,以及出租车的行驶路径等因素,对出租车的拼车路线进行了合理规划,在充分利用出租车自由灵活特性的同时提高了搭载乘客的通勤效率;Flex则使用GPS数据设计了一种灵活性介于公交车和出租车之间的小型绿色公交系统。随着轨道交通系统在各个城市的发展,乘坐地铁出行成为城市居民越来越多的选择,针对地铁轨道交通的智慧城市交通数据研究也得到越来越多的重视。北京航空航天大学使用北京地铁系统的客流数据,对北京市轨道交通的负载流量进行了预测分析,其研究成果对于保障轨道交用运营安全和提高轨道交通运营效率有非常重要的意义;Capra 等人对伦敦地铁系统(tube)的客流拥堵模式进行了系统的分析,并以此为依据提出了避免地铁拥堵的技术方案。除此之外,综合利用多种交通工具的客流数据还可以实现对用户全出行路径的系统规划与出行时间估计。以此为基础开发的城市交通公共服务系统对于优化城市的整体出行效率、改善市民的出行交通体验等都有非常大的帮助。
从上述工作可以看出,智慧城市建设技术在数据驱动的智能交通领域取得了丰硕的成果。值得注意的是现有的系统与成果大多是依靠浮动车GPS、一卡通、微波探测线圈等结构化较好的数据源。对于包括丰富语义信息,但结构化程度低、信息维度高的城市交通视频监控数据现有研究使用的还非常少。有关监控视频的应用研究依然停留在视频处理、语义提取、事件理解等阶段,在智慧城市技术体系中扮演着数据准备的角色,尚不足以完全支撑以知识发现为目标的集成应用。这一方面是因为高维视频语义分析理解难度大,相关技术尚不成熟;另一方面也是因为视频数据的体量过大,很难按照城市的规模进行协同组织与处理。解决城市交通监控视频上述两个方面的挑战将是以数据为中心的智慧城市研究在智能交通领域所要面临的一项重要任务。
构建物理世界的数字孪生城市也能为不同的城市行业应用提供巨大的帮助,海量的城市数据的收集过程本身就是为了支持与之相对应的行业应用。例如,浮动车GPS数据是为了监测道路的拥堵状况;手机数据是为了提供手机通信服务;一卡通客流数据是为了提供方便的公共交通服务等。除了这些数据本身所对应的专门应用之外,城市数据还可以用于提供与最初数据收集过程无关的行业应用,我们称之为“附加行业应用”。附加行业应用的一个重要特点是人们无法获得充分的目标行业数据,而只能采用相关的外围城市数据建立行业信息与外围数据之间的关联模型,再利用模型和综合数据反推行业应用所需的信息。如何从包括城市综合特性的外围城市数据中提取某一特定附加行业应用所需要的信息是附加行业应用所面临的主要挑战,一些具有代表性的研究工作包括能源消耗、空气质量、住房价格和地图测绘等。
(1) 能源消耗。
能源是维系城市运转的动力所在,随着全球能源的日益枯竭,降低城市能源消耗和构建绿色城市成为智慧城市建设的核心目标之一。然而城市作为一个复杂的能量代谢系统,即便是弄清楚城市对某一种特定形式能源的消耗量也是非常困难的。为解决这一问题,微软亚洲研究院的郑等人利用出租车 GPS 数据和城市加油站的兴趣点数据对北京市机动车辆的每日汽油消耗量进行了估算。该研究所要解决的挑战一方面在于出租车并不能完全代表城市中全部车辆的行为,每一个加油站中正在加油的车辆中只有一小部分是出租车,也并非每个加油站每时每刻都有出租车在加油;另一方面GPS数据只包括出租车的行驶轨迹与运营状态信息,没有明确的车辆行驶意图信息。一辆出租车在加油站附近出现并不能说明其正在加油,需要有专门的算法对出租车的加油行为进行检测和判断。针对上述两个方面的问题,郑等人设计实现了从GPS轨迹数据中发现加油事件的检测方法,提出了一种能够在稀疏张量中分析汽车在加油站中加油所消耗时间的评估算法,并实现了能够通过加油时间推断加油站车辆到达频率的排队计算方法。该研究可以为普通用户提供加油站的推荐服务,也可以为石油公司的加油站建设规划提供意见;同时还可以让政府了解和掌握整个城市的能源消耗情况,从而制定更为合理的能源管理政策。
除了以上研究工作之外,还有通过分析城市人口、车辆GPS数据,以及兴趣点等数据来规划电动汽车充电站的建设,或通过分析车内总线传感器的数据来设计更加节能环保的汽车驾驶方式等研究。
(2) 空气质量。
大气污染问题是我国主要大型城市所面临的一个巨大的环境问题,尤其是近几年,北京的空气质量问题受到了从政府到公众的一致关注,PM2.5、雾霾、空气指数等不断成为新闻媒体所热议的关键词。为解决我国城市近两年持续出现的空气污染问题,国务院于2013年09月10日印发了《大气污染防治行动计划》,提出要从10个方面采用综合手段防治大气污染。然而空气污染也具有非常复杂的成因,人们对于大气污染的认识依然存在许多空白。例如,大气中的首要污染物究竟是由什么原因造成的?在交通、工厂、气候、天气、人口及植被中,究竟哪一个才是对空气质量影响最大的因素?现有的空气监控系统能否满足大气污染治理的实际需要?只有回答了这些问题才能够真正实现对大气污染的有效防治。
基于城市计算技术的U-Air系统在该领域取得了初步的研究进展,该系统对北京市22个空气监测站的PM2.5数据读数进行了分析研究,发现即便是在相同的天气条件下距离非常接近的两个空气监测站的PM2.5数据依然会有数倍的差距。这意味着如果采用线性差值的方法,目前较为稀疏的监测站分布并不能完全反映整个北京市的空气质量情况。市民在得知空气质量较好的情况下,很可能会外出进入一个空气质量非常差的市区,从而引发健康问题。为了解决这一问题,U-Air 系统利用机器学习技术使用城市的气象数据、交通数据、城市结构数据等训练获得了城市空气质量的时空模型,并使用该模型实现了以 1 km2为单位的细粒度城市空气质量报告;此外,该模型还能够很好地度量不同城市动态因素对空气质量的影响情况,该研究成果为进一步的空气质量预报和空气污染治理等大气污染防治工作奠定了初步的基础。
(3) 城市经济学。
城市经济学是经济学的一个重要分支,其研究对象是城市中各要素在社会经济系统中的相互关系和运行方式。通过构建物理世界的数字孪生城市采用全新的视角来分析城市经济学问题,与传统的经济学分析模型不同,数据挖掘、机器学习等人工智能技术在这里扮演了核心角色。英国科研人员设计开发的 Geo-Spotting 系统使用机器学习的方法,利用Foursquare 应用提供的 LBS 数据对纽约城区的店铺地理位置与营业收益的关系进行了分析,并以此为依据帮助商户进行店铺选址;此外,一些关于城市商业区分布的城市功能区域识别工作也可以列入城市经济学的范畴中。
(4) 地图测绘。
城市交通数据在地图测绘方面也能够发挥非常大的作用,对于城市中一些新修建且未进行地图测绘的街道可以使用车辆的行驶轨迹数据测量,这样的测绘方式可以极大地提升城市地图的测绘效率并有效地降低测绘成本。该功能应用的范围非常广泛,如使用城市交通的GPS数据绘制地图、检测双向道路路链的地图生成算法,以及检测城市中立交桥交叉点绘制地图的方法等。
综上所述,附加行业应用的相关技术专注于智慧城市建设某一领域的特殊需求,核心任务是建立已知城市数据同城市未知特性之间的关系模型。该类研究所面临的关键挑战在于如何降低现有数据同无关特性之间的耦合程度,以及挖掘数据同目标应用之间的相关联系。在该类应用中数据所包括的城市动态信息越单一,越有助于问题的求解。
2.城市人类行为统计力学应用
人类行为统计力学是统计物理学的一个重要分支,主要研究内容是使用统计的手段揭示人类行为的内在规律,采用的研究手段以复杂网络、复杂系统等物理学工具为主并综合融入信息科学、社会学等多学科研究工具。该领域的研究早期由物理学家发起,近几年越来越多地受到信息科学等其他领域科研人员的关注。城市环境下的人类行为统计力学研究我们称之为“城市人类活动统计力学”,该类研究与智能交通、城市计算等信息学科研究的不同之处在于其更加关注揭示数据背后所蕴含的自然规律,应用色彩并不浓重。
(1) 城市交通网络分析。
与城市交通网络分析相关的统计力学研究来源于复杂网络的相关研究,1998年Watts和Strogatz在《Nature》杂志上发表文章提出了小世界(Small World)网络模型,描述了从完全规则的网络到完全随机网络的网络转变。小世界网络既具有与规则网络类似的聚类特性,又具有与随机网络类似的较小直径。随后,1999年Barabdsi和Albert在《Science》杂志上发表文章指出许多实际的复杂网络的连接度分布都具有幂律形式。由于幂律分布没有明显的特征长度,因此该类网络又被称为“无标度(Scale Free)网络”。在两篇经典网络研究论文的推动之下,复杂网络理论开始在各个学科显现出巨大的能量,并逐渐成为交叉学科研究的热点之一。
在城市研究领域,道路交通网络,特别是轨道交通网络成为复杂网络理论应用的主要领域。如国外某研究机构对美国波士顿市的交通网络、印度的铁路网络,以及波士顿和维也纳的轨道交通网络进行了研究,发现上述网络均满足小世界特性;另有韩国某研究机构用公共交通数据和私人交通数据对韩国的高速公路网络进行了研究,研究结果显示公共高速公路网络为无标度网络。但与私人交通网络合并后,网络不再具备无标度网络特点,而是符合重力模型。该机构还对韩国首尔的地铁网络进行了研究,研究显示首尔地铁边的权重分布为幂律分布。对于客流数据通过生成树模型构造出的图,其强度为对数正态分布,度分布为幂律分布;新加坡某研究机构则对新加坡公共交通网络进行了分析,结果显示就网络拓扑特性而言,轨道交通网络更接近于随机网络。但在考虑客流网络后,网络整体呈现出无标度网络特性;加拿大某研究机构则对加拿大多伦多市的地铁网络的未来发展规划进行了评估,结果显示多伦多地铁网络在之后25年将更加优化。由于我国城市轨道交通发展的相对较晚,因此国内城市交通网络的研究目前主要集中于公交网络。涉及地铁网络的只有对北京和上海地铁网络的研究,但这些研究大多局限于利用仿真模拟方法讨论网络抗毁性方面的特性等。
(2) 城市居民行为建模。
城市居民的行为建模是人类时空动力学研究的一个子集,人类行为的时空动力学研究开始于2005年Barabasi教授在《Nature》杂志上发表的一篇有关人类行为时空特性的论文。该文认为人类行为在时间上分布并不符合对泊松过程,并提出了一种基于优先级的排队论模型,该模型显示人类活动的时间分布更加接近于幂律分布。随后,Brockmann 等人在《Nature》杂志上发表了关于人类行为空间标度律的研究,该研究显示人类长程旅行中表现出来的空间行为既不同于随机游走过程,又不同于 Levy 飞行过程的独特性质。人类行为的时空动力学很快成为统计物理学和复杂性科学研究的热点领域,城市作为人类活动最为密集的区域之一,在该研究领域中必然不会缺席。在众多城市数据中,最先被用来分析人类行为时空的是手机数据。例如,某机构用志愿者3~6个月的短消息通信记录进行人类活动的时间分析,发现其行为符合幂指数在1.2~1.7之间的幂律分布;利用2006年新年期间600万用户的3 000万条短信数据进行统计分析,发送时间间隔和回复时间间隔均符合截尾幂律分布;对来自3家公司14万用户的150万条短信记录进行分析,发现其符合双模分布,即前段为幂律分布;后段为指数分布。
在人类行为时空研究方面也有丰富的技术成果,如通过分析10万名手机用户在6个月内的通话地点记录,发现这些用户的移动距离服从带有指数尾的幂律分布。或使用同样的手机通话地点数据对人类空间活动模式的可预测性进行了分析,分析结果显示样本数据中的用户活动在空间上具有93%的可预测性,而且不同个体的可预测性差异并不大。瑞典某研究机构对瑞典4个城市中50辆出租车6个月的GPS轨迹数据及出租车乘客的出行行为进行了统计分析,研究认为出租车乘客的乘车距离服从双段的幂律分布;北航的徐老师等人使用北京市近两万辆出租车3个月内的GPS轨迹数据,对出租车乘客的乘车距离特征进行了更加精确的统计测算,结果发现出租车乘客的乘车距离与时间长度均服从指数分布,而非幂律分布;Bazzani教授的研究小组使用意大利罗马、博洛尼亚、西尼加利亚和佛罗伦萨等城市的私家车GPS数据对私家车主驾车出行的行为特征进行了统计分析,统计结果显示这些城市的车辆行驶里程都近似服从指数分布。
伦敦某研究机构使用伦敦地铁中200万名乘客在一周时间内的IC卡刷卡数据,对于乘客的乘车距离进行了统计,研究发现地铁乘客的乘车距离更加近似于负二项式分布,而非通常认为的幂律分布或类似出租车乘客/私家车主出行距离的指数分布;另一研究机构则对230 名志愿者填写的日常出行日志数据进行了研究,该研究的一大亮点在于对个体行为的空间特性进行了分析。研究结果显示在混合交通情况下,交通费用通常与出行距离具有线性关系,而出行时间与距离则具有“对数+线性”关系。出行距离分布近似为带有指数截断的幂函数律,而在单一交通工具出行时间和距离是线性关系。
2012年Albert-Laszlo Barabasi教授在《Nature》杂志上发表的一篇文章中提出了一种关于城市间市民出行活动范围的“辐射”模型,该模型相比交通领域中传统的引力模型更加准确且没有参数。该文很快引起了学术界对城市交通出行行为的关注,人们对于城市的人类活动行为的研究重点也开始从出行距离的标度律研究扩展到了城市与城区之间的人口移动流量研究。北京航空航天大学徐老师等人基于多个城市的出租车与出行数据分析提出了一种新的群体移动模型,能够模拟和预测城市内不同区域间的人口移动的流量。基于这一模型的理论分析进一步表明造成出租车出行距离呈指数分布的根本原因在于城市内人口密度呈指数衰减。针对城市内出行模式与城市间出行模式的不同特性,北京师范大学的王教授等人提出了一种Conduction-like Stochastic Process模型来进一步准确刻画城市内人口流动的通勤特性。
综合上述研究可以看出,利用来源丰富的城市多源数据和强大的统计物理工具我们可以深刻地理解城市道路、交通结构,以及人类活动行为的本质特性。相对于基于机器学习、数据挖掘等计算机技术的城市计算等研究,该类研究领域的研究结论具有很强的可解释性。在应用方面,我们可以看出相关的技术研究成果可以很好地为智慧城市中的交通规划建设、定制推荐、传染病防控等应用服务。
3.1.5 多源城市数据的紧耦合,数字世界与物理世界的交互
构建和谐宜居的智慧城市系统,实现人与环境、人与城市和谐发展的智慧城市愿景,依然存在诸多挑战,这些挑战需要多学科和多领域的研究人员相互配合、凝聚智慧并共同面对。在这里,我们对未来在以数据为中心的智慧城市领域可能有所突破的研究方向和有待突破的研究问题进行展望。
(1) 多源城市数据的紧耦合。
城市是一个复杂且庞大的复杂动态系统,任何一方面的动态特性都会在不同的数据空间中有所体现。现有的智慧城市建设工作往往只能利用城市数据空间中的一两种数据,即使是多源数据融合的研究工作也往往是某一类数据为核心,加之地图和兴趣点等城市 GIS锚定数据作为支撑。例如,出租车GPS数据+地图和兴趣点数据等。多源数据的耦合度并不高,利用模式也相对单一。如何充分挖掘城市核心数据的关联性,实现多源数据之间的紧耦合将是未来智慧城市中数据应用技术发展的必然趋势。
(2) 信息世界与物理世界的交互。
构建物理世界数字孪生城市的根本目的是为了服务城市与市民,即将信息空间的智慧应用到真实的物理世界中;同时,应用了智慧城市新技术的物理世界也会发生变化并在信息空间中有所反馈,研究人员还需要根据这些反馈进一步改进技术。这种信息世界与物理世界的交互过程将不断地迭代进行,并且逐步实现自主演化,最终构成一个具有自我改进能力的反馈系统。目前业界还没有太多相关的技术及应用,但相信不久的将来物理世界与信息世界的交互研究将会成为智慧城市研究的一个重要方向。
(3) 城市深层次数据的利用。
城市的运行过程涵盖了交通、经济、社会、物流等多层次、多方面的社会活动,现有研究工作所采用的地图数据、交通数据、通信数据、环境数据等都只是反映了城市活动的物理与信息接触行为,并且均是以地理位置坐标进行锚定标注的。对于一些深层次的城市逻辑行为,如资金流动、政策导向、社会心理、流行时尚等现有研究工作都少有涉及,开发利用城市深层次数据、挖掘城市运行的内在逻辑关系将会是智慧城市技术发展的未来方向之一。
(4) 城市行为动力学理论体系。
城市行为动力学是理解城市内在行为与市民活动规律的基础理论,在整个智慧城市研究的理论体系中扮演着非常重要的角色。目前的城市行为动力学理论研究还只是依附于人类行为时空动力学的一个统计物理学分支,尚没有形成完整的理论体系,具体内涵与外延边界也尚不清晰。因此未来完善和发展系统的城市行为动力学理论,构建完整独立的理论体系将是智慧城市基础理论研究的核心任务。
综上所述,构建物理世界的数字孪生城市是未来现代化城市的发展方向,以数据为中心的智慧城市技术是支撑智慧城市建设的技术基础。随着城市信息基础设施建设的日渐成熟,人们对城市智慧化的需求也越来越迫切,智慧城市建设正在得到来自不同学科科研人员的密切关注。无论是在信息科学领域、城市科学领域,还是环境、能源、物理学等学科领域,以数据为中心的智慧城市都在逐步成为人们感兴趣的热点领域。尤其是在数据科学崛起的大背景之下,以数据为中心构建物理世界的数字孪生城市将会成为数据信息技术从虚拟数字空间走向真实物理世界的第1个阶梯,未来的前景与影响力不可估量。