赞
踩
Apache Griffin是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度度量数据资产,从而提升数据的准确度和可信度。例如:离线任务执行完毕后检查源端和目标端的数据数量是否一致,源表的数据空值等。
但由于Griffin有着较为严重的版本依赖,因此无法在最新版本的数据仓库架构中兼容进去。目前只能使用2.x版本的Spark和hadoop,进行数据质量监控。
1)安装ES5.2
上传elasticsearch-5.2.2.tar.gz到hadoop102的/opt/software目录,并解压到/opt/module目录:
[yyds@hadoop102 software]$ tar -zxvf elasticsearch-5.2.2.tar.gz -C /op
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。