赞
踩
CYBERNETICS AND INFORMATION TECHNOLOGIES’24
论文原文下载地址:原文下载
目录
背景:数字技术的发展和各种来源数据的涌入,使处理异构大数据成为企业的一项重要任务[1],而这一任务的核心需要能够合并和评估这些数据,以获得更深入的洞察力和有效的决策[1]。
传统的数据管理方法:无法处理异构数据,也无法处理各种数据源、格式和质量[1]。
因此,企业需要利用先进的数据管理技术[1],采用综合方法。
本文:
大数据是指:组织目前正在处理的大量有组织且非结构化数据。
大数据产生来源:传感器、电子商务交易和社交媒体。
随着技术的发展,大数据的产生越来越多,有必要使用更先进的技术对其进行存储、处理和分析。
大数据的主要特征,包括5V:
应用领域:教育、医疗保健、金融、零售、电信和旅游。
庞大的数据集规模与异质性可能性的增加直接相关[62],这种关系是大数据的一个非常重要的方面。
异构大数据概念:社交媒体数据、传感器数据、金融数据、医疗数据、客户数据、供应链数据、人力资源数据、环境数据、教育数据、交通数据和制造数据等种类繁多的数据被称为异构大数据。
数据来源:结构化、非结构化和多媒体格式等。
处理异构数据的好处:
在处理异构数据时,对来自多种不同格式、结构和模型的数据进行整合是一项挑战[64-66]:
有几项研究强调,为了获得有价值的见解,从而取得商业成功和竞争优势,必须采取综合方法(数据的整合、预处理、分析、管理和语义整合)来释放各种数据源的全部潜力。
数据集成概念:是指合并和组合来自不同来源和格式的数据,以创建统一、无缝视图的过程[104, 105]。
整合来自程序、数据库和文件系统的数据会给这一过程带来挑战[106]。
整合数据的困难:大量数据来自不同来源,结构各异,且不断变化[107, 108]。
整合数据的挑战:
数据集成是一种程序性机制,好处:
现有工作:
整合方法:包括数据仓库、数据映射和数据联盟[124]。数据仓库和数据联盟是两种主流方案[125]。
与数据仓库(DW)相比,大数据仓库(BDW)代表着一种进步。
BDW:一种已被采用的用于整合大数据源的方法。包括为转换和加载的多个来源的数据建立一个存储库。
传统DW:更适合于有组织的历史数据分析,难以进行横向扩展,因此要确保做到这一点颇具挑战性[128]。
实施 BDW 系统耗时且昂贵的原因是:需要仔细考虑以下几个方面:
现有工作:
这种集成不仅增强了可扩展性,还有助于降低传统 DW 架构的建设成本。
数据仓库的概念:是一种完善成熟的管理范式,得到了广泛认可方法论的支持。
大数据领域仍处于发展阶段,虽已有几种方法试图处理部分问题,但大数据的全面集成解决方案尚未完全实现。
大数据联盟是指:将分散在不同地点的数据源的数据进行组合和分析,以创建统一视图,从而进行高级分析和决策的过程[135]。
与将数据整合到一个地方的方法不同,BDF 的目的:将数据保留在其来源中,使其易于在这些来源之间进行探索和分析。
BDF适用场景:数据所有者关注隐私、安全和控制,BDF避免了存储的需要,而存储可能具有挑战性或不可取[136]。
BDF如何有效解决了访问不同数据源的难题:通过将不同数据源映射到 RDF(S)/OWL 本体或关系模式等单一模式中,允许在这种统一模式上运行 SPARQL 或 SQL 等查询 [135]。
现代数据管理系统通常包含:联合查询应答工具 [137]。
联合查询回答的主要目标:创建一种从数据源访问数据的一致方式,而无需在中央存储库中重复数据。
实现这一目标的方法:使用针对联盟内数据源的子查询,并根据预定义规则评估其结果。
跨异构大数据源的数据联盟 在研究和行业中 都是一个活跃的领域。然而,数据联盟系统仍然需要一个基础和既定原则[135]。
现有工作:
企业需要:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。