当前位置: article > 正文

数据和数据可视化基础_多视图协调关联

作者：知新_RL | 2024-02-28 14:42:13

踩

多视图协调关联

数据基础

数据属性

数据对象的特征（Characteristics）或特性（feature）
别名：特征维度变量
属性类别：
　　类别性属性：点、线、面
　　有序性属性
　　数值型属性
　　离散性和连续性

数据特征

基本统计描述

数据对象间的关系

数据对象间的关系：相似度和相异度
数据间关系的度量，经常在统计和数据挖掘中使用相异度矩阵
在这里插入图片描述

类别型数据距离计算

在这里插入图片描述

数值型属性间的距离：明科夫斯基距离系

在这里插入图片描述

数据不确定性

分类：
　　存在不确定性
　　属性不确定性
来源：
　　本身误差
　　精度转换
　　特定应用需求
　　缺失值
　　数据集成

数据预处理

在这里插入图片描述
ETL内部包括数据清理和数据整合
数据清理：检测和清除数据中的错误和不一致，以提高数据质量
数据整合包括：
　　(1)合并来自多个数据源的数据
　　(2)向用户提供一个关于这些数据的统一视图
数据错误类型及处理方法：
　　缺失值：
　　　　常量代替缺失值
　　　　属性平均值填充
　　　　回归
　　　　人工填充
　　噪声值：
　　　　回归分析
　　　　离群点分析
数据质量：数据质量高 -> 对目标用途的符合度高
数据墨水比（data-ink ratio）：数据可视化质量的衡量标准
数据清洗和整合步骤：
　　初步分析：在操作之前进行数据分析
　　冲突解析：解析数据源间的数据冲突
　　定义数据转换工作流和转换规则：使用工作流方式完成模式（schema）配准和转换
　　工作流验证：验证工作流中的步骤是否正确
　　数据转换：开始流程

数据存储

基于文件的存储
数据库 & 数据库管理系统
数据仓库：数据仓库是面向主题的、已整合的、时变且稳定的数据集合，用来支持管理的决策过程。
Keyhole Markup Language(KML)：在基于web的二维或三维地图上表达地理标注信息
HDF(Hierarchical Data Format)：组织和存储大量的数值型数据，特别是科学计算数据
在这里插入图片描述

数据分析

统计是现代数据分析的基础同样也是数据挖掘、机器学习的基础

探索式数据分析

(1)基于统计
(2)数据可视化驱动的方法
(3)使用简单的方式概括数据主要特征
探索式数据分析中的可视化方法分类：
　　原始数据绘图：柱状图、饼状图、直方图、散点图等
　　简单统计值标绘：一维盒须图、二维盒须图
　　多视图协调关联

数据挖掘

数据挖掘/知识发现是一种自动、简易地从数据中提取表示知识的模式的过程，从存储在数据库、数据仓库中的数据，到网页、其他大型储存库，或是数据流。

描述性任务：

概念描述：对数据集中的数据本身或其特征进行描述
关联分析：分析数据中的“属性-值”频繁出现的情况，并探究频繁出现的条件
聚类：对于无标记的数据，根据“最大化类内相似性、最小化类间相似性”的原则进行分组
离群点分析：分析数据集中与数据一般行为或模型不一致的数据点

预测性任务：

分类：使用能够描述并区分数据类别或概念的模型，预测数据中标记未知的对象。模型的导出基于对训练数据集的分析。
演化分析：分析数据随时空变化所形成的演变规律（单调、周期等），并对其建模，使用模型对未知时空位置的数据进行预测。

数据挖掘中的方法：
　　统计方法：回归分析；参数估计
统计学习方法：概率模型；贝叶斯网络
　　机器学习：决策树；神经网络
　　算法方法：K-means，K-最近邻

数据可视化基础

可视化流程模型

流水线模型
在这里插入图片描述
回路模型

可视分析模型

可视化编码

（灰度）值可被认为是有序的，可用于编码数值型数据
色调通常认为是无序的，可用于编码不同维度的值

可视编码的优先级：

在这里插入图片描述
可视编码的表现力
表达且仅表达数据的完整属性：
　　　　　　　　　　精确性
　　　　　　　　　　可辨性
　　　　　　　　　　可分离性
　　　　　　　　　　视觉突出
可视编码原则：
　　分组会对大部分任务有效
　　如果不能进行分组，需要转换任务目标以支持分组
　　当类别过多时，尽量减少类别
　　对数据的每个维度指定一种颜色

可视化设计

可视化设计目标

表达力强：真实全面地反映数据的内容
有效性强：用户对可视化显示信息的理解效率
简洁
易用
美感

可视化设计步骤

数据的筛选：
　　设计者必须决定可视化所能处理的数据的信息量
避免
　　可视化展示了过少的数据信息
　　设计者试图表达和传递过多的信息
解决方案：
　　数据的筛选操作—让用户选择当前显示的部分数据
　　多视图或多显示器—根据数据的相关性分别显示
　　
确定数据到图形元素（即标记）和视觉通道的映射：
　　充分利用人们已有的先验知识，从而降低人们对信息的感知和认知所需要的时间
　　
视图的选择与用户交互控制的设计：
　　视图交互
　　滚动与缩放
　　颜色映射的控制
　　数据映射方式的控制
　　数据缩放和裁剪工具
　　LOD控制

可视化设计框架

可视化设计的4个层次
问题刻画层
数据层
编码和交互层（核心）
设计并实施用户实验

可视化隐喻

视觉隐喻：在视觉上将目标物体/形象与另一领域的（源）物体进行相似性对比
可视化隐喻：将数据特性与自然界真实物体结合起来，通过读者对自然界物体的认知来增强可视化表达效果

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】