赞
踩
”双十一“ 购物狂欢节 -- 大数据
数据量正在呈指数级增长,大约每两年翻一番
到2020年,全球数据将达到40zb
数据规模越来越大,内容越来越复杂,跟心速度越来越快,数据特征的烟花的和发展催生了一个新的概念------大数据
何谓“大数据”(Big Data),如果从字面意思看来,“大数据”指的是巨量数据
那么有人可能会问,多大量积聚的数据才叫“大数据”?
不同的学者有着不同的理解,难以会有一个非常定量的定义,只能说,“大数据”计量单位已超过TB级别发展到哦PB 、EB、 YB甚至是BB级别
最早提出“大数据”这一概念的全球知名质询公司麦肯锡(詹姆斯。麦肯锡,美国芝加哥大学商学院教授,麦肯锡公司创始人)的定义:“大数据”是指在一定时间内无法用传统数据库软件工具采集、存储、管理和分析其内容的数据集合
研究机构Gartner是这样定义“大数据”:
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
大数据技术角度来看,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理
如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过”加工“实现对数据的“增值”
数据规模大
社交网络(微博、推特、脸书)、移动网络、各种智能工具、服务工具等,都成为数据的来源
淘宝网接近4亿的会员每天产生的商品交易数据月20TB;脸书约10亿的用户每天产生的日志数据超过300TB
迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据
数据相关计量单位是我换算关系,如下表所示:
单位 | 换算公式 | 单位 | 换算公式 |
---|---|---|---|
Byte | 1Byte = 8bit | TB | 1TB = 1024 GB |
KB | 1KB = 1024Byte | PB | 1PB=1024TB |
MB | 1MB= 1024kb | EB | 1EB=1024PB |
GB | 1GB=1024mb | ZB | 1ZB=1024EB |
广泛的数据来源,决定了大数据形式的多样性,大疏忽可以分为三类:
结构化数据
非结构化数据
半结构化数据
结构化数据,指的是可以使用关系型数据表示和存储,表现为二维形式的数据
一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据
如财务系统数据局、信息管理系统数据、医疗系统数据等;
非结构化数据,指的是数据结构不规则或不完整,没有预定义的数据模型,不方便使用数据库二位逻辑表来表现的数据。
如视频、图片、音频等。
有统计显示,目前接骨化数据占据整个互联网数据量的75%以上,而产生价值的大数据,往往是遮这些非结构化数据
半结构化数据,是结构化数据的一种形式,它并不符合关系型数据库其他数据表的形式关联起来的数据模型结构,担保函相关标记,用来分割语义元素以及对记录和字段进行分层。因此,它也被称为字描述的结构。
半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要
如HTML文档、JSON数据、邮件、网页等
数据的增长速度和处理速度是大数据高速性的重要体现。
海量数据的背后带来更大的挑战,即如何快速计算分析大数据已经成为当下热门的话题。
举个常见的例子,我们经常适用百度搜索去找自己想要的商品,那么百度是在成千上万的结果中毫秒级的找到符合你关键词的选项呢,这就需要大数据的高速处理能力
大数据的核心特征是价值
价值密度的高低和数据总量的大小是成反比的,即数据价值密度约高数据总量越小,数据价值密度约底数据总量越大。
任何有价值的信息的提取依托的就是海量的基础数据。现实世界索产生的数据中,有价值的数据所占比例很小。
目前大数据背景下有个为解决的问题,如何通过强大的机器算法更迅速的在海量数据中完成数据的价值提纯
真实性,其实就是数据的质量,海量数据并不一定都能反映用户真实的行为信息或者客观事实的真实信息。
数据的真实性和质量才是获得真知和思路的最重要的因素,是指定成功觉此最坚实的基础
以网页访客数据为例,衡多网站为了赚取更多的广告费用,会使用作弊机器人对广告进行点击,这样其实就造成了作弊流量,而这些流量并不能反应用户真实需求。
电商是最早利用大数据进行精准的行业、
精准营销
提前为客户备货
将货物送上门
马云的菜鸟网络宣称的24小时完成在中国境内的送货;
刘强东宣传未来京东将在15分钟完成送货上门都是基于客户消费习惯的大数据分析和预测
麦肯锡的一份研究显示,金融业在大数据价值潜力指数中排名第一、应用中总结为一下五个方面:精准营销、风险管控、决策支持、效率提升以及产品设计
花旗银行利用IBM沃森电脑财富管理客户推荐产品;
美国银行利用客户点击数据集为客户提供特色服务,如有竞争的信用额度;
招商银行利用客户刷卡、存取款、电子银行转账、微信评论等行为数据进行分析,每周给客户发送正对性广告信息,里面有客户肯能对感兴趣的产品和优惠信息
大数据让就医、看病更简单
大数据平台积累了海量的病例‘病例报告、治愈方案、药物报告等信息资源,所有常见 的病例等都记录在案,医生通过有效、连续的诊疗记录,能够给病人优质、合理的诊疗方案。、
提高医生的看病效率,而且能够降低误诊率,从而让患者在最短时间接受最好的治疗
零售行业大数据应用两个层面:
一个层面是零售行业可以了解客户消费喜好和龋齿,进行商品的精准营销,降低营销成本。
另一层面是依据客户购买产品,为客户提供可能购买的其他产品,扩大营销额,也属于精准营销范畴
分析背后原因是,在美国有婴儿的家庭中,一般是母亲在家照看婴儿,年轻的父亲在购买尿布的同事,往往会顺便为自己购买啤酒。由此,沃尔玛就在卖场尝试将啤酒与尿布摆在相同区域,让年轻的父亲可以同事找到这两件商品,并很快的完成购物从而极大提升商品销售收入。
交通大数据应用主要在两个方面:
另一方面可以利用大数据料了解车辆通行密度,合理进行道路规划包括单行线路规划
另一方面可以利用大数据来实现即时信号灯跳读,提高自己已有线路运行能力,及科学的 信号灯
黑猫警长》大家都很熟悉,它讲述的是“黑猫警长”,如何精明能干、对坏人穷追不舍、跌宕起伏的故事情节。能拿到大数据时代背景下的话,虽然它能体现“黑猫警长”的尽职尽责、聪明能干,但更多的 会归结到一个问题:“为何还是如此被动”、低效?疾病可以预防,难道犯罪不能预防么?
答案是肯定的,国家正在将大数据技术拥有舆情监控,其收集到的数据除了了解民众诉求,降低群体事件之外,还可以用于犯罪管理
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。