1.1.3 机器学习之美——数据的可视化
一个系统是否具有学习能力已成为是否具有“智能”的一个标志。机器学习的研究方向主要分为两类:第一类是传统机器学习的研究,该类研究主要是研究学习机制,注重探索模拟人的学习机制;第二类是大数据环境下机器学习的研究,该类研究主要是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识。
但是,无论是数据的获取还是对结果的预测分析,机器学习处理与输出的都是冷冰冰的数据。虽然对于机器学习来说这是正常的过程,但是作为数据的最终用户,这并不是一个好的分析和解读方式。而数据可视化,是关于数据视觉表现形式的科学技术的研究。这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
数据可视化是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性、动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。
数据可视化是当下十分火热的数据应用技术,很多新锐的数据分析工具都注重开发数据可视化的功能模块。数据可视化及其技术研究和应用开发,已经从根本上改变了我们对数据和数据分析工具的理解,数据可视化对数据发展的影响广泛而深入。
可视化是将数据、信息和知识转化为一种形象化的视觉形式的过程,显然更加侧重人对数据、信息和知识自上而下的加工处理过程。一个好的可视化,能够带给人们的不仅仅是视觉上的冲击,还能够揭示蕴含在数据中的规律和道理。
数据可视化的功能主要体现在两个方面:一是数据展示需求,二是数据分析需求。数据展示很好理解,就是将已知的数据或数据分析结果,通过可视化图表的方式进行展示,多用于研究、报告、公告平台等场所。配合现在流行的大屏展示技术,数据展示的方式也越来越为人所接受和欢迎。
而在数据分析方面,在大数据分析工具中,数据的最终结果是图表形式的,除了可以进行展示,还可以继续进行挖掘分析,即基于图表的“二次分析”,对数据的深层次挖掘。比如,使用“大数据魔镜”工具,用户可以基于可视化分析台和仪表盘进行“上卷下钻”的数据挖掘和关联分析。
相对于繁杂的数据,图表不仅能更加简洁地表述信息,还适用于大量信息的描绘,即对大量数据的承载。这也是数据可视化成为大数据分析工具不可或缺的功能模块的主要原因。
1.可视化效果对数据可视化的影响
可视化效果指的是色彩和图形样式,是直接呈现在人们眼前的“可视化效果”。在信息可视化通过造型元素明确传达信息及叙述的基础上,把握好视觉元素中色彩的运用,使图形变得更加生动,信息表达得更加明确。
2.数据可视化的分类
数据可视化包含三个分支:科学可视化(Scientific Visualization, Sci Vis)、信息可视化(Information Visualization, Info Vis),以及后来演化出的可视分析(Visual Analytics Science and Technology, AST),这个从IEEE VIS会议的分类中可以看出来。
将数据可视化按照应用来分,可视化有多个目标:
● 有效呈现重要特征。
● 揭示客观规律。
● 辅助理解事物概念和过程。
● 对模拟和测量进行质量监控。
● 提高科研开发效率。
● 促进沟通交流和合作。
数据可视化面向的是科学和工程领域数据,比如空间坐标和几何信息的三维空间测量数据、计算机仿真数据、医学影像数据,重点探索如何以几何、拓扑和形状特征来呈现数据中蕴含的规律。
信息可视化的处理对象是非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据,其核心挑战是针对大尺度高维复杂数据,如何减少视觉混淆对信息的干扰。
近几年来,随着人工智能的兴起,人们逐渐发现有些事情其实使用机器能比人做得更好,同时也发现了一些事情需要借助人类3亿年的进化本领。所以将可视化与分析进行结合,产生了一个新的学科——可视分析学。可视分析学被定义为由可视交互界面为基础的分析推理科学,将图形学、数据挖掘、人机交互等技术融合在一起,从而促使人脑智能和机器智能优势互补和相互提升。