当前位置:   article > 正文

数据科学与工程_考前知识点回顾

数据科学与工程
一、概述
  1. 数据的概念
    数据指的是事实或经过观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。

  2. 数据的类型

  • 按数据结构分类:结构化数据、半结构化数据、非结构化数据
    • 结构化数据:直接可以用传统关系数据库存储和管理的数据。
    • 半结构化数据:经过一定转换处理后可以用传统关系数据库存储和管理的数据。
    • 非结构化数据:无法用传统关系数据库存储和管理的数据。
  • 按 “存储” 分类:文本、图像、音频、视频、模板数据等。
  1. 数据模型
    数据模型的三种类型:概念模型、逻辑模型和物理模型。
    对应软工中的:概要设计、逻辑设计、物理设计。

  2. 数据科学
    定义:数据科学是关于数据的科学,是探索和发现数据中价值的理论、方法和技术,是对从数据中提取知识的研究。

  3. 数据预处理的步骤
    数据审计、数据清洗数据集成数据变换、数据脱敏、数据归约、数据标注。

  4. 数据科学家
    定义:能使用科学的方法,运用数据挖掘工具对复杂的、大量的数字、符号、文字、网址、音频、视频等信息进行数字化重现与认识,并从中寻找新的数据洞察的工程师或专家。

二、大数据
  1. 大数据面临的挑战
  • 数据的开放共享程度低
  • 数据的安全问题严峻
  • 制度建设落后
  • 大数据专业人才缺乏
  1. 大数据的特征
  • 数据量大 (Volume)
  • 数据类型多 (Variety)
  • 处理速度快 (Velocity)
  • 价值密度低 (Value)
  • 真实性强 (Veracity)
  1. 数据工程过程 / 数据生命周期
  • 大数据采集
  • 大数据预处理
  • 大数据存储与管理
  • 大数据分析与挖掘
  • 大数据可视化
  • 大数据安全保障
三、云计算

四、采集与预处理
  1. 大数据采集的来源
  • 商业数据 (最主要的数据来源)
  • 互联网数据
  • 物联网数据
  • 政府数据
  1. 大数据采集的方法
  • DPI 采集方法:采集 “裸格式” 的数据,即数据未经过任何处理。
  • 数据库采集方法
  • 感知设备数据采集方法
  • 系统日志采集方法
  • 网络数据采集方法
  1. 数据预处理
    任务:使残缺的数据变的完整,并将错误的数据纠正、多余的数据去除,进而将所需的数据挑选出来,为数据挖掘内核算法提供干净、准确、更有针对性的数据,并提高知识发现的准确度。

  2. 数据清洗的工作

  • 异常值的检测
  • 缺失值的处理
  • 错误值的处理
  • 不一致数据的处理
  • 重复数据的检测
五、存储与管理
  1. 大数据的存储方式
  • 文件系统
  • 数据库
    • 关系型数据库
    • 非关系型数据库
      • 键值数据库:Redis
      • 列存储数据库:HBase
      • 文档数据库:MongoDB
      • 图数据库:neo4j
    • 云存储
  1. 数据仓库
    数据仓库系统由数据仓库、ETL工具、元数据、访问工具、数据集市和数据仓库管理系统组成。

  2. Hadoop 两大核心部分

  • HDFS:Hadoop 中实现大数据存储功能的分布式文件系统。采用主从架构,由一个NameNode和多个DataNode组成。
  • MapReduce:是一种并行的计算架构。
    Hadoop集群具有良好的横向扩展性,其存储和计算能力随着集群主机数量的增加而不断扩展。
六、分析方法
  1. 大数据分析方法的类型
  • 描述分析:描述事情发生的结果。
  • 诊断分析:分析事情发生的原因。
  • 预测分析:预测未来事件的演化趋势和发生的概率。
  • 规范分析:用来控制事情发生的轨迹,用来决策制定以及提高分析效率。
  1. 大数据分析方法的步骤
  • 数据获取和存储
  • 数据信息抽取和无用信息清洗
  • 数据整合和表述
  • 数据模型的建立和结果的分析、评价
  • 结果阐述
  1. 时序数据
    时序数据是指时间序列数据,即将某一个指标在不同时间上的数值,按照时间的先后顺序排列而成的数列。
七、分析工具

Python;无

八、可视化
  1. 数据可视化的作用
  • 观测和跟踪数据
  • 分析数据
  • 辅助理解数据
  • 增加数据吸引力
  1. 数据可视化的分类
  • 科学可视化:面向科学和工程领域的科学可视化,处理科学数据。
  • 信息可视化:处理的对象是抽象的、非结构化数据集。
  • 可视分析学
  1. 可视化方法
  • 基于文本的可视化方法
    • 基于标签云的文本可视化
    • 基于树图的文本可视化
    • 基于关联的文本可视化
  • 基于图形的可视化方法
    • 桑基图、散点图、折线图、条形图、柱状图
九、安全
  1. 大数据安全问题的形成原因
  • 传统数据安全防护技术的缺陷
  • 大数据分布式存储的风险
  • 大数据平台安全机制的不足
  • 新型虚拟化网络技术的局限
  • 新型高级网络攻击的威胁
  1. 大数据安全问题的分类
  • 大数据平台安全
    • 大数据存储安全
    • 大数据传输安全
    • 大数据平台访问控制安全
    • 大数据运行计算安全
    • 大数据基础设施安全
  • 大数据自身安全
    • 数据的真实可信性
    • 数据的可靠性和完整性
  • 大数据应用安全
  1. 大数据安全相关技术
    数据加密技术、数据真实性分析和认证技术、访问控制技术、安全审计技术、数据溯源技术、APT攻击检测技术。
十、应用

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/233201?site
推荐阅读
相关标签
  

闽ICP备14008679号