赞
踩
导读:本文概述数据、分析、商业智能、报表、大数据、数据科学、边缘分析、信息学以及人工智能和认知计算这些基本概念。
作者:格雷戈里·S. 纳尔逊(Gregory S. Nelson)
来源:大数据DT(ID:hzdashuju)
01 数据
数据几乎渗透到我们生活的每一个角落,从我们在手机中留下的数字足迹,到健康记录,再到购物历史,以及对资源(如能源)的使用情况。在当今这个数字世界里,脱离数字的生活虽然不是不可接受的,但也需要巨大的牺牲精神和不可思议的毅力才能忍受。
我们不仅是数据制造者,同时也是活跃的数据消费者,例如我们时常检查自己的在线消费习惯,监测健身程序,或者查看自己的常旅客积分是否够去加勒比度假,这些行为都是在消费数据。
但数据到底是什么?按最通用的形式来理解,数据就是被储存起来以备日后使用的信息。最早记录信息的方式可能是在动物骨头上刻蚀符号。到了20世纪50年代,人们开始在磁带上记录数字信息,然后是打孔卡片,再后来是使用磁盘。现代数据处理开始的时间并不长,但已经奠定了我们如何收集、存储、管理、使用信息的基础。
直到最近,我们对那些无法计算的信息(例如,视频和图像信息)还只能进行分类处理。但近几年来,通过大量的技术变革,无法存储的数据类型变得越来越少了。事实上,存储的信息,或者数据,就是以一种可用的编码方式,为了我们可计算的目的而建立的真实世界的模型。
数据是真实世界中所发生事情的持续记录或“模型”,这一事实是分析学的一个重要特征。被公认为“20世纪最伟大的统计学家之一”的乔治·鲍克斯(George Box)曾经说过:“所有的模型都是错误的,但有些模型是有用的。”
很多时候,我们在数据中发现一些没有意义或者完全错误的东西。请记住,数据是从真实的物理世界转化并抽象为代表真实世界的东西,即乔治所说的“模型”。就像机械速度计是测量速度的标准一样(也是衡量速率的一个很好的替代物),这个模型(指机械速度计)实际上是测量轮胎的转速,而不是速度。
总之,数据是存储的信息,是所有分析的基础。例如,在可视化分析中,我们利用可视化技术和交互界面对数据进行解析和推理,找出数据本身存在的规律。
02 分析
分析(analytics)可能是商业中使用得最多但却最难理解的术语之一。对一些人来说,它是一种用来“把数据屈打成招”(找出数据中潜藏规律)的技术或技巧,或者仅仅是商业智能与数据仓库的延伸;而对另外一些人来说,分析则是用于开发模型的统计、数学或定量方法。
Merriam-Webster字典称分析是“一种逻辑分析的方法”。Dictionary.com字典将分析定义为“逻辑分析的科学”。不幸的是,两种定义都直接使用了分析(analysis)这个词的词根,似乎存在循环解释的逻辑错误。
分析(analysis)这个词的起源可以追溯到16世纪80年代的中世纪拉丁语(anal-yticus)和希腊语(anal-ytiks),意思是“分解”(break up)或者“放松”(loosen)。我把分析(analytics)定义为一种解决数据驱动问题的结构化方法:通过对事实(数据)的仔细推敲,帮助我们解决问题的一套方法论。
关于分析的定义有很多争论。就当前讨论的问题而言,我将分析定义为:
一种全面的、基于数据驱动的解决问题的策略与方法。
我有意避免将分析定义为某个“过程”、某种“科学”或“学科”。相反,我将分析定义为一种全面的策略,正如读者将在本书第二部分中看到的那样,它是包含过程、规则、可交付物的最佳实践。
分析通过使用逻辑、归纳推理、演绎推理、批判思维、定量方法(结合数据)等手段,来检验和分析现象,从而确定其本质特征。分析植根于科学方法,包括问题的识别和理解、理论生成、假设检验和结果交流。
归纳推理
当积累的证据被用来支持一个结论,但结论仍带有一些不确定性的时候,就会用到归纳推理方法。也就是说,最终的结论有可能(存在一定概率)与给定前提不一致。通过归纳推理,我们基于具体的观
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。