赞
踩
Visualize、Visualization
在计算机视觉领域,数据可视化是对数据的一种形象直观的解释,实现从不同维度观察数据,从而得到更有价值的信息。
我们利用视觉获取的信息量,远远比别的感官要多得多
大数据时代,数据遍布于我们生活的每一个角落。对于大多数人来说,真正有意义的并不是数据本身,而是数据背后蕴含的信息。要想探索和理解那些大型的数据集,可视化是最有效的途径之一。那么,为什么数据可视化是探索和理解大数据的最有效的方法呢?根本原因在于,我们利用视觉获取的信息量,远远要比别的感官要多得多,人眼每秒获取的信息量要比手、耳朵等其它感官多出好多倍。
第二个原因是数据可视化能够帮助我们对数据有更加全面的认识。
这个动态的图形展示了国内各地区生产总值每一年的排名情况。通过这个动态的图片,我们可以直观地感受到生产总值排名前十五的各个地区,从2000年到2017年间每一年的变化情况。
20220920_110110(1)
数据可视化能够在小空间中展示大规模数据
这个表格包含一家连锁超市的订单明细数据,其数据量非常大,通过数据可视化,把各个省份的销售额和利润额进行汇总,在地图上展示出来,便可以更加直观地对各个省份的销售成绩进行对比分析。
我们来看几个简单的图形,这类图形形象化地展示了几句经典的电影台词。
(1)第一句台词是:“我本可以获得社会地位,我本可以是个竞争者,我本可以是任何有头有脸的人,而不是一个毫无价值的游民!”下边这幅图通过圆圈之间的交集完美地展示了这句台词所表达的意思。
(2)第二句台词来自于著作《乱世佳人》:“坦白说,亲爱的,我一点也不在乎。”右上角的图形通过两个不相交的圆形,准确地表达出台词的含义。
(3)第三句台词来自于《教父》:“我会给他一点好处,他无法拒绝。”右下角的图形也有效地表达出台词中的深层含义。这些简单的图形提炼出文字中的语义,能够明确地、有效地传递信息,加深人们对于文字的理解和记忆。
再来看看一个真实的案例,有效的数据可视化可以起到非同凡响的作用。这是著名的南丁格尔玫瑰图,这两幅南丁格尔玫瑰图反映了1855年前后战场上的士兵死亡情况。其中:扇形的外层,蓝色区域表示每月死于感染的士兵数量,扇形的中间层,红色区域表示每月直接死于战场的士兵数量,扇形的中间的灰色区域,表示每月死于其他原因的士兵数量。该图有2个非常明显的特征:(1)两幅图中蓝色的区域的面积明显大于其他颜色的面积。这说明受伤的士兵因为感染而死亡的数量远远大于直接在战斗中阵亡的人数。(2)左边这幅中的扇形面积远小于右边这幅图。左图是卫生委员会到达战区后的战士死亡情况,左图的战士死亡数量大幅度降低,说明积极改善医院医疗卫生状况,显著降低了英军的死亡率。160多年前,南丁格尔护士正是使用这幅图,让政府高层和维多利亚女王直观地感受到:改善医疗状况可以显著地降低死亡率这一事实,政府从而支持南丁格尔关于加强公众医疗卫生建设的提案,进而挽救了千万百姓的生命。
如果给你10,000元,你会怎么用这笔钱?
对于这个问题,美国的一个投资机构对3个不同年龄段的人群做了抽样调查,调查的结果如图所示。可以看到,不同年龄段的人群的选择有所不同,其中,
(1)偿还债务是得票率最高的选项,这显然与美国发达的信贷市场和消费结构有关,其中,公民的年龄段越大,还款意愿就越强
(2)除了还款,55岁以上的美国人还比较倾向于低风险的理财项目,比如,选择高息储蓄或购买债券,或者把钱直接存入退休金账户。
(3)35~54岁的美国人中,极大比例会选择把这笔钱投资在子女教育上,可见,教育支出也是近二十年来美国增长最快的财政支出。
(4)18~34岁的美国人既有兴趣加大对自身的教育投入,也愿意尝试诸如虚拟货币这类高风险的投资产品。
(5)我们还可以看到,不动产也是较受美国人欢迎的投资项目之一,其中年轻人的买房欲望相对而言是最高的。那么这些选项中,你更倾向于选择哪一项呢?通过这些案例,我们知道,数据可视化可以将冰冷枯燥的数据转换成易于理解、生动有趣、主题清晰的图表。
所以,数据是根本,目的是导向,切不可因追求炫酷的图表而忽略了数据本身和最初的目的。
当然,在达到了明确表达数据的目的后,如果有能力把图表设计得更加美观,也是非常好的。每个人每一次制作数据可视化图表的需求和目标都有所不同,但总体上,数据可视化的目的,是对数据进行可视化处理,以使得能够明确地、有效地传递信息。
数据中所包含的信息,归纳起来,主要有三种:模式、关系和异常。数据可视化是为了从数据中寻找这三种信息。
模式,指数据中的规律。
事物会随着时间的流逝而变化。
关系,指数据之间的相关性。
在统计学中,通常代表关联性和因果关系。无论数据的总量和复杂程度如何大,数据间的关系大多可分为三类:数据间的比较,数据的构成,以及数据的分布或联系。
(1)数据间的比较,比如,这种柱状图,可通过柱子的高度比较数据的大小。
(2)数据的构成,比如,这种饼图,可很好的反应数据的构成以及占比情况。
(3)数据的分布,比如,这种地图热力图,通过不同的颜色区分数据的分布情况。再比如,收入水平与幸福感之间的关系是否成正比?经统计,对于收入在1万元以下的人来说,一旦收入增加,幸福感会随之提升,但对于收入水平在1万元以上的人来说,幸福感并不会随着收入水平的提高而提升,这种非线性关系也是一种关系。
异常,指有问题的数据。
异常的数据不一定都是错误的数据,有些异常数据可能是设备出错或者人为错误输入,有些可能就是正确的数据。比如,人为欺诈或者设备异常状况数据,通过异常分析,可以及时发现各种异常情况。上图中大部分点都集中在一个区域,极少量点分散在其他区域,这些都属于异常值,需要对之进行鉴别和处理。
数据可视化的作用可归纳为3点:
同一个可视化图形可能同时包含以上3个作用。
自古以来,记录信息的有效方式之一是用图形的方式描述各种具体或抽象的事物。这些图形都是几百年前的科学家手绘的图形,这些图形在今天依然居然参考价值。左图是列奥纳多·达芬奇(Leonardo DaVinci,1452年~1519年)绘制的人体解剖图,中图是自然史•博物学家威廉.柯蒂斯(William Curtis,1746年~1799年)绘制的植物图,右图是1616年伽利略关于月亮周期的绘图,记录了月亮在一定时间内的变化。
今天,有了计算机技术,我们已习惯了使用各种可视化的方式记录信息。通过这幅图,田径赛场上可以清晰、准确、迅速地判定运动员的名次和成绩。
可视化极大降低了数据理解的复杂度,有效提升了信息认知的效率,从而有助于人们更快地分析和推理出有效信息。1854年伦敦爆发了一场霍乱,英国医生John Snow绘制的一张街区地图,这就是著名的“伦敦鬼图”,该图分析了霍乱患者分布与水井分布之间的关系,发现在一口井的供水范围内患者明显偏多,医生John Snow据此找到了霍乱爆发的根源是一个被污染的水泵,拆除了水泵,霍乱才得以控制。
如图,这幅图是一个连锁超市在各个省份的销售情况分布图,它的原始数据是一份excel表格数据。这幅图是一个可交互的动态图,把鼠标滑动到各个圆圈上,即可呈现该省份的销售详情。图中用圆圈大小代表销售额的多少,用不同的颜色区分利润的高低。通过对比分析,超市即可知道哪些省份销售业绩好,哪些省份销售业绩差。原始的excel表格数据,是很难直观地分析出任何有价值信息,但把数据可视化后,数据分析就变得异常简单。
这是《让子弹飞》这部电影的人物故事情节变化图。通过这幅图,可推断出随着故事情节的发展,人与人之间的关系。
俗话说“百闻不如一见”、“一图胜千言”。这幅图是介绍中国烟民数量的图形,如果只看左图,可知中国烟民的数量是32000000,这个数据是很大,但具体有多大却不能直接感知,结合右图可知,中国烟民数量超过了美国人口总和,可见中国烟民数量确实很大,通过这种对比,对数据的感知就加深了。
这幅图明确地列出烟草税的每一笔资金的去向,使政府的信息更加公开化、透明化,加深民众对于政策的理解,从而更好地推进政策的实施。
这幅图是介绍雅虎邮箱处理数据量的图形,大意是每小时处理的电子邮件大小是1.2TB,相当于644245094张打印的纸。这又是一个很大的数据,但到底有多大?在这里用了一个比喻的手法:644245094张纸,如果把每一张纸首尾对接,可以绕地球4圈多。由此,能较深刻感受到雅虎邮箱处理的数据量之大,又从侧面反映出雅虎邮箱为地球节省了很多纸张。
1933年亨利·贝克(Henry Beck)设计的伦敦地铁图成为地铁路线的标准可视化方法,沿用至今。早期的地铁图跟 普通地图一样,虽然信息充分,但是非常复杂,难以找到需要的信息。亨利·贝克设计的伦敦地铁图具有三个比较明显的特征:以颜色区分路线;路线大多以水平、垂直、45度角三种形式来表现;路线上的车站距离与实际距离不成比例关系。其简明易用的特点在1933年出版后迅速为乘客接受,并成为今日交通线路图形的一种主流表现方法。这幅图是武汉市地铁交通图,它的设计也是符合这三个特征。图中每条线路一目了然,在有限的空间内显示全部站点信息,屏蔽掉了普通地图中的干扰信息,达到了有效传播信息的目的。
数据可视化的处理对象是数据。那么根据所处理的数据对象不同,数据可视化演化为科学可视化、信息可视化、可视分析学三个分支
科学可视化面向科学和工程领域数据,如含空间坐标和几何信息的三维空间测量数据、计算模拟数据和医学影像数据等,例如,左上的图为气象数据可视化,下图为医学核磁共振医学图像可视化。其核心挑战和重点探索如何以几何、拓扑和形状特征来呈现数据中蕴含的规律。
信息可视化的处理对象则是非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据,其核心挑战是如何从大规模高维复杂数据中提取出有用信息。尽可能减少数据混淆,展示用户感兴趣的信息。
由于数据分析的重要性,将可视化与数据分析结合,形成一个新的学科:可视分析学。也就是说,可视分析学是以交互式分析界面为基础的分析推理科学,它结合了可视化、人机交互和数据挖掘,主要目的是解决需要人参与理解和决策的多种实际问题,例如右图为针对个人隐私保护的可视分析系统。
科学可视化是可视化领域发展最早、最成熟的一个学科。其应用领域包括了自然科学,如物理、化学、气象气候、航空航天、医学、生物学等各个学科,涉及对这些学科中数据和模型的解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况。也就是说科学可视化旨在呈现实测或仿真的科学数据的特征、模式和演化规律。
科学可视化可以粗略分为标量场、向量场和张量场可视化三类
科学可视化-颜色映射
科学可视化的基础理论与方法已经相对成型。其中有一些方法已广泛应用于各个领域。最简单的科学可视化方法是颜色映射法。它将不同的值映射成不同的颜色。此图展示的是2016年10月中旬气象卫星地表温度图。其中温度被划分为11个数值区间,不同的颜色被用于区分不同的数值范围。
科学可视化-轮廓法
轮廓法(Contouring)是将数值等于某一指定阈值的点连接起来的可视化方法。地图上的等高线,天气预报中的等温线都是典型的轮廓可视化的例子。这是一幅等高线图,数值表示海拔高度,同一个轮廓上的海拔高度相同。
与科学可视化对比,信息可视化更关心抽象、高维数据,按照数据类型,信息可视化可分为时空数据可视化、层次与网络结构数据可视化、文本与跨媒体数据可视化、多变量数据可视化。其中,时间与空间是描述事物的必要因素,因此,地理信息数据和时变数据的可视化至关重要。
这幅图展示了美国纽约人口密度与人种多样性,绿色黑人,黄色黄种人,白色为白种人。
层次和网络结构数据是最常见的数据类型之一,人与人之间的关系,城市地点之间的道路连接都组成了网络数据。层次结构数据是只有一个根节点的网络结构数据,它是不存在回路的特殊网络,例如家谱。此外,网络和社交媒体产生了海量数据,我们往往需要从非结构化的文本数据中,提取出结构化信息并进行可视化,
此外,网络和社交媒体产生了海量数据,我们往往需要从非结构化的文本数据中,提取出结构化信息并进行可视化,这幅图生动形象展示了迪士尼关键词组成的词云,词云的形象是米老鼠
最后,用于描述现实世界中复杂问题和对象的数据,通常是多变的高维数据,比如这幅图中的人脸数据,如何将高维数据呈现在二维平面是可视化面临的挑战之一。
信息可视化-地理信息
我们常见的地图是地理信息数据,属于信息可视化的范畴
信息可视化-时变数据
时变数据可视化采用多视角、数据比较等方法体现数据随时间变化的趋势和规律。如图是部分电子产品在1980-2010年间的价格和销量变化趋势,其中:横轴表示年份,纵轴表示销量。圆点的大小表示价格,颜色表示产品类别。
信息可视化-层次数据
层次数据可视化中,层次数据表达每个体之间的层次关系。树图是层次数据可视化的典型案例,树图是对现实世界事物关系的抽象,其数据本身就有层次结构的信息。如图对GDP排名靠前的国家进行层次划分。第一层是根节点,第二层是各大洲,第三层是各个洲所包含的国家。
信息可视化-网络数据
网络结构数据可视化中,网络数据是指不具备层次结构,关系更加复杂和自由。比如人与人关系、城市道路连接、科研论文的引用;示例图是从邓超和孙俪微博中挖掘出的社交网络图,可以看出这对夫妻微博互动较多。
可视分析学综合了图形学、数据挖掘和人机交互等技术。它以可视交互界面为通道,将人的感知和认知能力融入到数据处理过程中,帮助完成有效的分析推理和决策。在可视化方面,有信息可视化、科学可视化与计算机图形学。与数据分析相关的领域包括:信息获取、数据处理、数据挖掘。而在交互方面,则由人机交互、认知科学和感知等学科融合。
因此,可视分析学所包含的研究内容非常广泛,其中:感知与认知科学 研究人在可视化分析学中的重要作用;数据管理和知识表达 是可视分析构建数据到知识转换的基础理论;地理分析、信息分析、科学分析、统计分析、知识发现 等是可视分析学的核心分析论方法;在整个可视分析过程中,人机交互必不可少,用于驾驭模型构建、分析推理和信息呈现等整个过程;可视分析流程中推导出的结论与知识最终需要向用户传播和应用。
可视化发展史与人类现代文明的启蒙以及测量、绘画和科技的发展一脉相承。在地图、科学与工程制图、统计图表中,可视化理念与技术已经应用和发展了数百年。数据可视化的发展历程主要经历了9个阶段:
(1)17世纪之前:图表萌芽
可视化的萌芽起源于几何图表和地图,其目的是展示一些重要的信息。16世纪时,人类已经开发了精确观测的物理技术和器具,也开始手工制作可视化图表。如图为公元前6200年绘制的地图。
这张地图是13世纪时的罗马帝国的公路网布局图,用图标来表示目的地,线条表示路线。这是一张内容非常丰富的信息图。
此图由一位不知名的天文学家创作,描绘的内容有很多猜测,比较靠谱的一种说法是它描绘了行星随着时间的变化而变化的轨迹,这幅作品中,包含了很多现代统计图形元素,例如坐标轴,网格,时间序列。
(2)1600-1699年:
17世纪最重要的科学进展是物理基本量(时间、距离和空间)的测量理论与设备的完善。这些理论和设备被广泛应用于航空、测绘、制图和国土勘探等领域。这幅图诞生于1626年,描绘了太阳黑子随时间变化的情况。这幅图包含多个小图,用来刻画不同时间段的太阳黑子。
(3)1700-1799年:图形符号
进入18世纪,绘图家不再满足于在地图上展现几何信息,发明了新的可视化表达方法,如等值线、轮廓线等。18世纪是统计图形学的繁荣时期,折线图、柱状图、饼状图等基础图形都产生于这个时期。
此图是著名的天文学家哈雷所创作,其亮点是在地图的网格上用等值线标注了磁偏角。
(4)1800-1900年:数据图形
19世纪,人类已经掌握了整套统计数据可视化工具,包括柱状图、饼图、直方图、折线图等,这个时期进入了统计图形学的黄金时期。
巴黎工程师CharlesMinard用信息图的方式展示了1812年拿破仑大军征服莫斯科的艰苦旅程,信息图中的黑色粗线显示了极端天气如何影响拿破仑的军队,80%的士兵都冻死在路上。
著名的伦敦鬼图和南丁格尔玫瑰图都创作于这一阶段。
(5)1900-1949:现代启蒙
20世纪上半叶,可视化随着统计图形的主流化开始在政府、商业和科学等领域广泛应用。人们第一次意识到图形显示能为航空、生物等科学与工程领域提供新的洞察和发现机会。多维数据可视化和心理学的介入是这个时期的重要特点。1933年Henry Beck(亨利·贝克)设计的伦敦地铁图脱离真实地理位置的束缚,忽略各车站的精确位置,以相似的间隔来进行标注,并将45度和90度的电路图布局带入地铁路线图当中,整个地铁线路网显得清楚明了、次序井然。这种设计方法成为地铁路线的标准可视化方法,沿用至今。
(6)1950-1974年:多维信息的可视编码
《图形符号学》,构成图形的基本要素和图形设计的框架
1967年,法国人Jacques Bertin出版了《图形符号学》一书,描述了构成图形的基本要素和图形设计的框架。这套理论奠定了信息可视化的理论基石。以1973年Herman Chernoff(赫尔曼诺夫)发明的表达多维数据的脸谱编码为例,采用15个指标,一个指标代表一个面部特征,这样,按照各变量的取值,根据一定的数学函数关系,就能确定脸的轮廓以及五官的部位等,每一个样本点都用都可用一张脸谱来表示。脸谱图容易给人们留下较为深刻的印象,通过对脸谱的分析,就可以直观地对多维数据进行归类或比较研究。
(7)1975-1987年:多维统计图形
1970年以后,随着个人计算机的普及和不断发展,可视化处理的数据范围从简单统计数据扩展为更大的网络、层次、数据库、文本等非结构化与高维数据。各个领域对于数据分析和可视化提出了更高的需求,从而促使信息可视化发展成一门学科。如图利用雷达图对多维数据进行统计,比较公有云、私有云、混合云多个维度的性能值。
(8)1987-2004年:交互可视化
1980年末,视窗系统的问世使得人们能够直接与可视化的信息之间进行交互。随着金融交易、社交网络、文本数据等大量涌现,多维、时变、非结构化信息越来越多,静态的可视化图表已无法满足人们的需求,因此,各种交互可视化的方法应运而生。
(9)2004年至今:可视分析学
进入21世纪,面对海量、高维、多源、动态的数据,数据分析显得至关重要。因此,可视化与数据分析结合形成了一个新的学科:可视分析学。可视分析学综合图形学、数据挖掘和人机交互的理论与方法,辅助用户从大规模、复杂、矛盾甚至不完整的数据中快速挖掘有用的信息,以便做出有效决策。
华盛顿邮报统计了从2000年开始,校园枪击案的数量,每一个点代表10名遭受枪击案威胁的孩子。见链接:https://www.washingtonpost.com/graphics/2018/local/school-shootings-database/?noredirect=on&utm_term=.2e97d4b35d33
这是一个网站显示的风雨气温图,该网站即时显示世界各地天气的总趋势,左侧是一些关于气候的不同维度,选择不同的维度,地图会根据位置的情况来进行展示,呈现出色彩丰富的可视化作品。见链接:https://www.ventusky.com/?p=44;7;1&l=temperature
下面,我们来看一下数据可视化面临的挑战。伴随大数据时代的来临,数据可视化日益受到关注,可视化技术也日益成熟。然而,数据可视化依然存在许多问题,且面临着巨大的挑战。
以上所讲的5个方面是大数据可视化面临的挑战,同时也逐渐成为今后大数据可视化研究的热点与方向,相关科研人员将进一步开展深入细致的研究,有望在可视化分析与高效数据处理等问题上获得更大突破。
数据可视化技术发展方向可分为以下三个方面。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。