深度长文丨PPT数据可视化的秘密(前篇)

55天前发布

原创文章 / 平面 / 教程
陈龙PPT 原创,如需商业用途或转载请与陈龙PPT联系,谢谢配合。

一篇走心长文


商务演示场景中数据可视化已经成为一种商业语言。不仅是分析结果的直接呈现,还是对相关情况的全面认识。我们经常看到一些行业分析报告从不同角度、深入浅析地剖析各种关系。专业的数据可视化它体现着演示人的理性和逻辑,更反映者职场人的专业素养。



01-

什么是数据可视化


数据的可视化其实是在用数据讲故事

数据可视化由真实数据、富有美感的设计和完整的故事化逻辑组成:


这三个项目既是数据可视化的构件,也是可视化流程必不可少的环节:


  • 数据分析

    将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,获得更有商业价值的洞见和价值。


  • 视觉设计

    作为数据分析的末端整合和图形化处理环节,将不可见的数据现象转化为可见的图形符号,用大众能理解的图形语言来描述数据的内涵。


  • 讲故事

    另外可视化需要一个讲故事的逻辑,从一个宏观的问题,深入、细化到问题内部的方方面面,最终得出令人信服的结果。


数据的可视化和其他信息的可视化有很大区别,数据可视化的工具性更突出,逻辑层次的要求更强。其制作要点在于图表,但又在图表之外。很多时候不是画个简单的图表就是可视化了,通过图表工具去描述状态发现问题和并解决问题才是数据可视化的真正核心。



02-

数据分析

用数据看现象


出入厨房的人都知道好食材比烹饪工艺更关键,正如数据是可视化的前提和基础。


1.那么,怎样理解数据呢?


数据研究专家Viktor Mayer-Schnberger曾有一句名言: 世界的本质是数据。


数据反映了真实的世界,我们对它们进行分析和视觉表现,得到的不只是数据的关联性,我们还能了解到身边正在发生什么。这些故事反过来可以帮助解决真实世界中存在的问题。



某种程度上,数据是对世界的简化和抽象表达。我们通过搜集、整理、分析数据资料试图量化世界,用大众能理解的图形语言来描述世界的样子,最终实现理解自然现象、发现社会运行规律、并将其传播的目的。



2.数据能告诉我们什么?


理解数据的过程就是数据分析的过程,通过数据发现问题和寻找解决方案。尽管数据分析有获取、处理、分析和展示多个环节,过程繁琐,但最终都是为了回答四个问题:


1)发生了什么?

2)为什么发生?

3)可能发生什么?

4)针对这些问题应该采取哪些措施?



03.数据分析的流程是什么?


比较典型的场景是我们在制定一项发展方案时需要做调研,针对行业的数据进行分析,基于真实数据信息定量地判断决策是否符号商业规律。


一个决策方案调研的基本思路是这样的:


  • 定义内容:要制定什么的决策

  • 思考方法:如何去实现(也就是解决问题的办法)

  • 确定问题:研究目的(想要回答什么样的问题)

  • 假设结论:问题的答案(假设结论)

  • 寻找指征:用什么样的数据来回答问题(量化的指标和容量)

  • 数据分析:收集、整理、分析数据

  • 归纳信息:事实是什么(现象及背后原因)


用这个思路分析问题可以把决策和事实联系起来,用事实评判决策正确与否,数据在这个过程中起到描述事实和回答假设问题的作用。这其实就是典型的结构化思维在商业场景的应用。


总的来说就是:决策(结论)先行,根据结论假设问题、分解问题,归纳影响因素确定数据指标后找相关的数据来做数据间逻辑的关系分析。


这种数据导向的方案分析思路广泛应用于我们日常方案的撰写中,除此之外,还有种面向问题的分析场景:在实际运营中,财务数据报表发现业务问题后,对问题进行界定分析。


面向问题的可视化分析思路 应该包括以下个部分:

  • 明确问题:遇到什么问题,最直接的数据反映是什么

  • 思考因果:哪些因素导致了问题,关键指标是什么(量化的指标)

  • 寻找数据:收集、整理各个关键因素的表现数据

  • 数据分析:对比分析,界定原因

  • 提出方案:给出有针对性的解决方案总结报告:定制数据可视化方案


第一,从整体运营出发

明确有哪些关键因素会影响成交和业绩。比如:有效名单、demo品质、客服服务、产品属性等,相应地去看这些关键因素对应的KPI的表现,对关键因素深入分析确定是什么因素导致了业绩没达成,发现和挖掘导致业绩未达标的根本原因和问题。


第二,对比分析

逐一观测全年关键因素对应的KPI的表现,对比成交业绩最高的月份和成交业绩最差月份的关键因素对应的KPI差异在哪里,能够快速定位出哪些方面、哪些因素导致业绩未达标。然后能够有针对性地驱动和帮助部门去改善。


第三,基于这些问题因素

有的放矢地去做改善和探索提升业绩的方案。基于所得出答案,定制数据可视化方案以满足每个决策者的特定要求。总结以上两种思路,我们可以得到数据分析的流程:


 /数据分析的流程 /


分析流程中涉及很多专业的术语和方法,要求掌握基础数据处理工具,有些环节甚至需要会编程,相关软件有很多,例如Excel、SPSS、R等等。涉及的技术方法可自行搜了解,软件只是实现分析目的的手段,分析思路和分析方法清晰了,excel相对应的操作都能直接百度出来。



03 -

视觉设计

用图形讲数据


在数据分析后我们得到了数据和初步的结论,但是这戏信息太过原始和复杂,不便于传达给其他人,所以还需要对数据做可视化处理形成可视化报告。


1. 数据视觉设计原理


数据的视觉设计是用图形讲数据的过程,基本的原理如下表所示:


/ 数据可视化的基本原理模型 /


1) 数据转换 

首先通过excel等工具将原始数据整理转换为数据表格,原始数据通常都会有冗余或者残缺,含有噪音和误差同时数据模式和特征往往被隐藏。通过去噪、数据清洗、提取特征等数据处理操作将数据变换为可处理模式。


2) 视觉映射 

简单来说就是给既有数据选择合适的图表,用图形语言来展现数据关系的过程。 通过视觉元素的有序组合体现数据的特征,这里视觉元素可以称为视觉通道。听起来可能会抽象,但其实内涵很简单,比如:


  • 折线图把数据特征映射到『方向』

  • 柱状图把数据特征映射到『长度』

  • 饼形图把数据特征映射到『角度』

  • 环形图把数据特征映射到『弧长』

  • 面积图把数据特征映射到多边形的『面积』


除了这些基础的图形外,其他的视觉元素也可以表示数据的特征:


/ 图表原理:图表里的视觉元素 /


a. 位置 

观察散点图的时候是通过观察一个点的x坐标和y坐标以及与其他点的空间关系来确认数据点的分布和趋势。 散点图里数据的规律主要以下列四种为主:


/ 散点图里的数据规律 /


b. 长度 

以图形长度值来衡量数据大小,比如条形图(柱状图) 在制作条形图时需要注意保持图形长度的真实性,比如下面两个条形图,左边的图形以3000作为纵坐标轴起点,导致蓝色矩形长度变短,看上去蓝色矩形长度只是红色的1/4,扭曲了两个矩形的长度关系。


这显然违背了图形图表追求真实准确的可视化表达本意。需要特别提醒的是,有些文章认为修改坐标轴是一种美化数据的手段,这是错误的理念。



c. 角度 

饼图和环形图都是角度元素在图表里的应用类型,但二者又有所不同。圆环图和饼图一样能表现部分和整体的关系,除此之外圆环图还可以通过弧长的大小直接而明确地看出部分之间的大小比较关系,从功能性看上圆环图要优于饼图。



d.方向 

方向是指示动态的概念,是对一种趋势的描述,方向在图表中应用以折线图最为典型,如下图:



但是方向其实是一个不够准确的度量元素,就像指针,自身只能表示上下左右的倾向,想要准确表示具体指向则需借助标尺或者参考线。


相同的数值,如果标尺有差别,那么致使方向的斜率也会出现显著差异,所以在处理多组数据的方向性时最好统一横、纵轴。



e. 形状 

形状主要用于在多组数据分析时区别组别,我们在日常使用时又称之为标记,比如散点图和折线图中的形状:

/ 散点图里的形状 /


在散点图里使用三种形状来表现三个各自离散的数据群。


形状也可以表示数值的类型、系列和组别,比如折线图中各系列用多种不同的形状标记。


/ 折线图里的形状 /


f.面积和体积

大的图形代表大的数值。长度、面积、体积都可以表示数值的大小。二维平面通常用圆形和矩形,三维空间一般用立方体或球体。

但是在确定面积和体积要注意和边长或半径的数值换算问题,避免出现错误的暗示,比如:


g.饱和度和色调

颜色的两个要素,在图表中可以用表示组别,也可以用于表示等级和数值的高低。颜色要素在图表里最典型的类型是热力图,通过填色,热力图能用颜色的饱和度或者色调差别来展示数值在特定地理区域(或者页面区域)的分布。

/ 热力图:美国每10万人死亡人数变化百分比(1980-2014) /



/ 热力图:串串香在成都的分布 /



下图被认定为是世界上最早的热力图,由法国人Charles Dupin 在1826年发表在黑白地图上,以从白到黑不同深度,标示了法国文盲的分布情况。




3) 视觉元素的识别精确性

贝尔实验室在1985年发布了视觉元素的暗示排序清单:



在很多可视化规范都沿用这份清单,清单显示在可视化设计中,位置是最为精确的元素,长度其次。柱形图对数据的表现更为准确,人也更容易理解柱形图,而热力图表现相对要差得多。


这些数据的视觉化映射原理也是设计师和数据分析师们跳出传统图表的类型框架,创造各式各样的新颖可视化作品的理论基础。

落实到在图表制作上,就是合理而准确地选择图表类型。


 

2. 怎样选择最合适的图表?


图表的选择是一门科学,这里面有较成熟的规则,你可以称之为图形语法。


选择图表考虑的因素有很多,比如图表类型(分布和趋势……)、数据点(是少还是多)、用户角色(运营者、战略策划等等)、用户对数据的熟悉程度(比如分析师或者业务用户)等。


图表帮助我们更好地看懂数据,选择什么图表,需要回答的首要问题是『我有什么数据,需要用图表做什么』,而不是 『图表长成什么样』 ,而回答这些问题则需要了解图表功能以及图表所反应出的数据特征。


1)依据数据的特征来选择图表

从数据特征出发,我们从功能角度对常用的图表做了详细分类:



/ 图表类型:九类图表 /


依据九种分类标准,我们将数据分析常用到的图表依次归入图表类型。

在选用图表时可根据想展示数据的特征类别来选择具体图表:



/  图表类型细分:比较、分类、流程类图表  /


 /  图表类型细分:地图、占比、区间类图表  /



/  图表类型细分:关联、时间、趋势类图表  /


可以看到图表世界里类型众多,不同图表有种多种功能,展开讲完全可以写本书出来。

这里我们选择最常用的类型——柱形图,作为示例来细致分析数据可视化时图表的正确使用方法。


2)图表选择详解:柱形图


a. 适合场景:适合应用到分类数据对比

(分类数据是什么呢?可以理解为一个大范围内彼此并列存在的类型)


/ 源数据 /



b. 不适合场景:

  • 分类太多不适合使用纵向柱状图




分类情况过多时,柱状图的文本为了排布合理,需要进行旋转,造成混乱,产生信息冗余,影响正常阅读。


使用横向柱状图,文本可以横向排布,便于用户的阅读,效果如下:




  • 柱状图不适合用来表示趋势


柱状图使用矩形的长度(宽度)来对比分类数据的大小,非常方便临近的数据进行大小的对比,但不适合展示连续数据的趋势。下图本想展示 ACME 这只股票在一个月内每日的价格走势,但是效果不尽人意。



随着有序的时间变化的数值趋势,更适合使用折线图或者面积图。




与之相对的,在表示分类对比的数据时,我们更应该使用柱状图,而不是折线图。


柱状图用于多个分类间的数据的对比,折线图常用来分析数据随时间的变化趋势,也分析多组数据随时间变化的相互作用和相互影响。


c.  衍生图表:

柱形图基于长度大小的图表逻辑,针对多样的使用场景,衍生出几类具有特定功能的图表:直方图、堆叠柱状图和百分百堆叠图等。


 I. 直方图

形状类似柱状图却有着与柱状图完全不同的含义。

不仅能够显示各组数量(或频数)分布的情况,还可以显示各组之间数量(或频数)的差别。



  • 直方图用于表示分布情况

以四个特征(花萼长度、花萼的宽度、花瓣的长度和花瓣的宽度)对样本(各鸢尾花亚属)做定量分析来确定属种:


    /  源数据  /


    /  SepalLength(花萼长度)  /


    /  SepalWidth(花萼宽度) /

    从直方图中能清晰看出各类属种在四种特征值的直方图呈现一定的分布规律,根据这个结果就可以对样本做出属种认定。

    • 直方图适合用于观察异常或孤立数据

    下图绘制了钻石的全深比数据的统计直方图,从图中可以看出在 66 附近有两个孤立值。



    对于直方图,抽取的样本数量过小,将会产生较大误差,可信度低,也就失去了分析的意义。根据研究,直方图的样本数不应少于 50 个。


    堆叠柱状图


    形象展示一个大分类包含的每个小分类的数据,以及各个小分类的占比,显示的是单个项目与整体之间的关系。


    一般的堆叠柱状图用于对比不同分组的总量大小,同时对比同一分组内不同分类的大小,

    如下图显示的是每种化妆品在各个城市的销售情况,通过堆叠柱状图,我们可以很清晰对比同一种化妆品到底在哪个城市销售更好。



    /  源数据  /




    将销售收入堆叠起来,与传统柱形图相比,除了可以看到单个产品在单个城市的销售额外,可以看到某个化妆品在所有城市的总销售额。除此之外,色块的撞色处理视觉效果也比单薄的柱形图好得多。


    当然,一般堆叠柱状图各个分组内不同分类的基准线不同,所以不适合对比不同化妆品在不同城市的销售量。


    百分百堆叠图

    在这种堆叠图外还有一种百分百堆叠图,易于观察分类占比情况:



    这种功能和饼图、环形图的功能类似,都可用于展示类别的占比情况,但是和后者相比百分百堆叠图更易于观察小类别之间的差异和动态变化。


    同时用线条将各类别的矩形条首位边界连起来,更能观察出数据在不同年份的动态变化情况:




    堆叠图使用矩形的『长度』(或高度)来表示百分百数值,相对于饼图的『角度』是更易于准确识别大小差异的元素,在倾向于表示各类别数值大小比较时可以使用堆叠图,具体效果演示如下图:




    堆叠类图表除了柱状图外还有一种堆叠面积图,这种图表中各个叠起来的面积表示各个数据量的大小,最大的面积代表了所有的数据量的总和,是一个整体。非常适用于对比多变量随时间变化的情况。




    但是,分类数据的比较不要使用面积图,前面的示例中的游戏销售情况,比较的是4年的游戏销售情况,如果用于比较各个游戏类型的销售情况时,使用面积图不太合适,此时应该使用堆叠柱状图。



    和条形图一样,纵向柱状图展示的数据条数较少,当分类过多时,我们可以使用横向的堆叠柱状图:



    / 美国各州不同年龄段的人口数据分布情况 /




    我们对柱形图及衍生图表用法简要总结:


    • 对比分类数据时推荐使用柱形图,分类过多(>15)时使用横向柱形图;

    • 用柱形图比较数据间的大小,但不要使用柱形图来表示数据的变化趋势。

    • 表示数据的分布情况时使用直方图,观察异常或孤立数据时也可以用直方图。

    • 切记,直方图的样本数最好>50 个

    • 比不同分组的总量大小,同时对比同一分组内不同分类的大小时可以使用堆叠柱形图;

    • 此外,观察数据分布情况时也推荐使用百分百堆叠图。





    3. 如何增强图表的可读性


    图表是为读者制作,为信息表达而服务的,在基于数据建立图表之后仅仅是开始,还需要思考数据信息是否能够完整的传达,主要有四点:


    a.数据会说谎,保证信息传达的准确性

    有时候不正确使用图表会传达出完全错误的信息,与可视化原则相悖。

    比如:


    • 坐标轴处理不当

    一种是前面提到的出于夸大数据差异而对坐标轴起点不当截取。




    另外是对坐标轴使用对数处理,减小了数据差异




    • 图表拉伸

      图表横纵坐标轴的比例异常也会影响数据信息表达,特别是表现趋势方向类的折线图等图表,横坐标和纵坐标的比例在1:1到2:1之间最为合适




    • 取值间隔

      最易出现在波动性较大的数据处理中,间隔取值会得到完全不同的结果



    b.  建立视觉层次

    一份好的可视化报告一定是页面简洁,重点突出的,具体表现就是用突出的元素显示数据和结果,其他不重要的信息弱化,作为背景。此外还可以用线条或者箭头引导视线,帮助观众快速关注到主题信息图形部分。

    比如下面这张NBA球员使用率和场均得分散点图,所有视觉元素都在同一个层次上,过于扁平没有重点:



    下面这张把数据点淡化,加粗趋势线、弱化网格,把趋势线凸显出来,做出了层次。




    但是网格在页面里还是显得过于杂乱和密集,纵坐标标签也过密,针对性处理之后:



    可以看到,干扰信息越来越少,图表的焦点聚集于上升的趋势线上,正是我们要表达的关键信息,随着球员使用率的上升,场均得分也在上升,二者存在正相关。

    c.  允许数据进行比较

    相对于只显示数据点的图表,带有网格的表格会更容易比较数据间的位置差异,比如下面这个例子,在不加数据标签的情况下,适当添加横向网格线会是个不错的选择。



    图形的识别准确性差异也会导致难以比较数据,人眼很难分辨出二维图形的差异,比如下图中一眼看过去很难知道圆形的大小差异,换成基于长度大小的柱形图就清晰得多。



    d.  添加注解

    图表里的注解包括标题、副标题、数据标签、单位、趋势线、内容备注等,所有的图表注解元素的都应该以满足无人讲解场景为增删准则,让观众即便在五日解说的前提下也能看懂图表。





    数据可视化的秘密(前篇)总结复览:

    什么是数据可视化?

    • 可视化的概念


    数据分析,用数据看现象


    • 怎么理解数据?

    • 数据能告诉我们什么?

    • 数据分析的流程是什么?


    视觉设计,用图形看数据


    • 图表设计原理

    • 怎么选择图表

    • 增强图表可读性

    • ……


    故事逻辑,讲个好故事(后篇)


    • 下期见




    32
    - 0位站酷推荐设计师推荐 -

      文章信息

      没有新消息