赞
踩
Python:机器学习深度学习
java:Hadoop和Flink底层语言支持都是基于java
Scala:Spark框架
例子:物流项目:
当前数据类型包括以下三种:
传统数据分析在应用过程中有以下痛点
Mysql+Oracle:无法解决非结构化数据,数据量增大如何处理
python数据分析
优势:Python生态中数据科学库完整,并有支持深度学习机器学习的库
劣势:Python生态数据分析框架,例如pandas,多数是基于单机版数据分析,对于分布式数据支持需要引入大数据框架,无法解决
传统数据分析瓶颈:当数据达到一定量级,传统数据库做的是纵向扩展,所以瓶颈是存在的。(当数据量超出存储能力时候,我们只能纵向增加内存,瓶颈永远存在)
大数据分析的优势
不同于传统的数据分析,大数据是通过廉价的PC机通过网络连接在一起,构建分布式的计算和分布式的存储。
大数据分析的特点有:
数据如何采集
数据如何储存
数据如何ETL(数据清洗)
MapReduce
Spark
Flink
kylin
Impala
数据分析——得到统计指标
MapReduce
Spark
Flink
kylin
Impala
数据挖掘——对已有的数据进行价值化的提取
SparkMI
SparkMlib
Alink
数据报表展示——业务或数据的决策
BI
Apache SuperSet
Apache Flink是一个用于分布式流和批处理数据处理的开源平台。Flink的核心是流数据流引擎,为数据流上的分布式计算提供数据分发、通信和容错。Flink在流引擎之上构建批处理,覆盖本机迭代支持,托管内存和程序优化。Flink核心思想与SparkStreaming类似,针对数据集的微批处理框架,在相对不高的延迟下(秒级)完成批量数据的近实时处理。
阿里巴巴16年,以9000w欧元的价格收购了在柏林的一家开源的流计算引擎的创业公司,从此开启Flink高速发展之路。19年,阿里内部的blink合入flink1.9版本中。
特性:
Flink 官方文档:https://flink.apache.org/
将Flink的分布式能力赋予python,将python丰富的数据分析库,应用于Flink
为什么Spark和Flink等组件都纷纷支持Python语言?
如何能够借助Python语言和大数据框架完成建模
借助Python的Django和Flask完成Web任务,通过Python的Scrapy完成数据爬虫工作
亦可通过Python的Numpy、Pandas和Matplotlib数据科学库完成数据分析任务
但当数据量增加内存无法加载大量数据计算的时候,可能需要Python和大数据框架的结合处理、分析和对数据进行建模
PySpark的SparkSql完成分布式计算任务,使用Python操作SparkMllib完成数据挖掘和机器学习任务
Python如何支持Flink:
Flink要做到,批处理(处理批量数据)和流处理(处理实时数据)的统一
DataStream API支持流计算;DataSet API支持批计算
pip install apache-Flink
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。