当前位置:   article > 正文

一.Apache Griffin概述

apache griffin

Apache Griffin概述

Apache Griffin 是一个建立在 Apache Hadoop 和 Apache Spark 之上的数据质量服务平台 (DQSP)。 它提供了一个全面的框架来处理不同的任务,例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化。 它旨在解决大数据应用中数据质量领域的挑战。

一.背景

大数据应用当中有一个无法回避的问题,即数据质量的测量。针对这个问题,不同的团队已经构建了定制的工具来检测和分析各自领域内的数据质量问题。因此,Apache Griffin平台意在提供共享基础设施和通用功能,以解决数据质量的常见痛点,有助于建立一个可信的数据资产。

当前,有大量相关联的数据在多平台(流式和批处理)之间流动时,验证数据质量非常困难且成本高昂。以 eBay 的实时个性化平台为例,每天要验证约 6 亿条记录的数据质量。在这种复杂而大规模的环境中,数据质量往往成为一大挑战。

在 eBay 的数据质量中遇到了以下问题:

  • 缺乏从多个数据源到目标应用程序的端到端、统一的数据质量视图
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/523382
推荐阅读
相关标签
  

闽ICP备14008679号