赞
踩
目前市面上绝大部分数据血缘产品是用于跟踪数据流转过程和关系的平台,可以记录数据的来源、传输路径和用途,帮助企业管理和保护其数据资产。这些平台提供了跟踪数据血缘的功能,并可以自动记录和管理数据资产,提高数据的质量和可靠性。那么企业要如何选择适合自己的工具呢?今天就来对主流的数据血缘产品进行简单剖析。
作者:成于念 赛助力
Apache Atlas是一款由Apache托管的元数据管理和治理产品,在大数据领域得到广泛应用。它能够帮助企业有效管理数据资产,对这些资产进行分类和治理,提供高质量的数据信息以支持数据分析和数据治理。
Apache Atlas采用分层架构,包括三层架构,如下图所示。
优点:
缺点:
大型企业数据管理,分布式环境,数据合规治理。
LinkedIn开源的Datahub数据平台是一个面向数据资产的集成平台,旨在提高数据发现、可用性和可信度。该平台允许用户在数据集合、元数据、数据血缘关系和数据使用上创建、管理、发现和消费数据。Data整体架构如下所示:
优点:
缺点:
创建数据集,发布数据,管理数据血缘,分析数据质量,集成其他数据管理工具。
Gudu SQLFlow(马哈鱼数据血缘分析工具)是一款用于分析 SQL 语句,它可以帮助用户在SQL环境中进行机器学习建模和推理,并且能够轻易上手的数据血缘平台。支持多种机器学习框架,并提供了可视化的工具来帮助用户分析和理解数据。
优点:
缺点:
FineBI是帆软软件有限公司推出的商业智能(Business Intelligence)产品,旨在帮助企业的业务人员充分了解和利用数据。作为新一代大数据分析的BI工具,FineBI具备强大的大数据引擎,用户可以通过简单的拖拽操作创建多样化的数据可视化信息,自由地进行数据分析和探索,从而释放数据的潜能。
提供血缘分析功能,帮助用户直观地了解当前数据表的来源表,以及使用该表创建的子孙表、组件和仪表板。
亿信元数据管理平台专注于处理技术元数据、业务元数据和管理元数据,旨在帮助用户获取更多的数据洞察力,并挖掘出资源中隐藏的价值。
飞算SoData数据机器人是一套实时+批次、批流一体、高效的数据开发治理工具,能够帮助企业快速实现数据应用。
Informatica是一种企业级数据集成和数据管理平台,可以提供数据血缘和数据资产管理功能。
Alation是一种数据协作平台,可以自动化记录和跟踪数据血缘。它提供了一种集中管理和控制数据资产的方式,可以提高数据质量、降低风险和提高数据的可用性。
Collibra是一种数据治理和血缘平台,可以跟踪数据血缘,提供一种集中化的数据资产管理和数据治理解决方案。
本文摘编自《数据血缘分析原理与实践》,经出版方授权发布。购书链接:https://item.jd.com/14678220.html
《数据血缘分析原理与实践》
推荐语:这是一部可以帮助读者从0开始理解、建设并深度实践数据血缘及其系统的专业指导手册。全书所有内容均来自两位作者长期在世界500强企业从事数据相关工作的经验总结,书中不仅从原理层面带领读者深挖数据血缘本质,还有从实践层面对数据血缘的建设方法、核心技术、主流工具、在数据治理中的应用、典型行业应用案例进行了全方位剖析。
活动时间: 截止到2024-07-16 20: 00
落红不是无情物,化作春泥更护花。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。