赞
踩
前情提要:数据价值管理是指通过一系列管理策略和技术手段,帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程,即数据治理和价值变现。
上一讲介绍了数据切分标准设计的基本逻辑和思路。
本章重点讲解多源数据融合标准设计
多源数据融合标准是指用于指导如何从多个数据源中整合和分析数据,以提高数据的准确性、完整性和可用性的数据处理标准。数据融合的动作是指集成多个数据源以产生比任何单独的数据源更有价值信息的过程。
数据融合的分类依据可以按照数据类型和数据融合层级两个维度划分。
按照数据类型划分可分为结构化数据融合、半结构化数据与结构化数据的融合、多模态数据融合。
按照数据融合层级分为数据级融合、特征级融合、决策级融合
结构化数据是指可以使用关系型数据库表示和存储,可以用二维表来逻辑表达实现的数据。在结构化数据融合的过程中,需要分为行融合和列融合两个维度来考虑。
行融合是指多个数据源中披露了同一类型实体的相同维度信息。此类信息融合的过程中需保证元数据标准管理统一,记录唯一。
核心要点:
①多来源的数据在入库过程中业务主键质量保持基本一致;
②对于多来源的相同记录,需要设置数据源的保留优先级,保障多源数据入库后的唯一性;
例子:新闻数据的融合,新闻数据是在多个网站进行发布的,假设数仓中仅存储标题、发布时间、正文三个维度,那么业务主键可以按照标题设置,每个来源网站的标题数据要保障进行了统一清洗规则的处理和过滤。同时需要管理来源网站数据入库的优先顺序,且需要保留空位符,保障后续有新增数据源的时候有可以保留居中优先级的可能性。
列融合是指多个数据源中披露了同一类型实体的不同维度信息,此类信息融合高度依赖关联关系的构建。列融合过程中存在一种相对复杂的情况,一个信息维度存在多个数据来源,需要设计数据来源的权重,按照权重对数据进行特殊处理入库。
对于半结构化数据,如XML或JSON格式的文档,需要将其转换为结构化数据,这里设计到的步骤可回溯前两步,数据清洗和数据切分,再按照结构化的方式去融合。
多模态数据融合:多模态数据是指文本、图像、视频和音频等多种信息表达方式的数据,即包含传统定义的结构化数据、半结构化数据、非结构化数据,多模态信息融合是指把来源不同、形式不同的数据整合在一起。
多模态类型:
端到端学习模型:如多模态Transformer,能够直接从原始数据中学习到多模态的表示;
多模态融合网络:如MMViT(多尺度多视图视觉Transformer),结合了多尺度和多视图的特性,适用于多种模态的数据融合;多模态融合算法:如基于红外和可见光的多模态数据融合方法,适用于特定的多模态数据融合任务;
按数据融合层级可再细分为数据级融合、特征级融合、决策级融合
数据级融合:是指融合动作在原始数据层中进行融合,保留信息的详细数据,融合和集成精度高。
数据级融合与集成方法包括:代数法、HIS 变换、小波变换、主成分变换(PCT)、K-T 变换等。
图片引用GB/T 41563-2022
代数法:主要用于对多源数据进行处理和组合,以获得更准确、更全面的信息,代数法通常涉及到对数据进行数学运算,如加权平均、差值计算、比值计算等。
a.加权融合法:这种方法通过为不同的数据源分配不同的权重来融合数据。权重通常基于数据的可信度、精度或其他相关标准来确定。加权融合可以提高整体数据集的准确性和可靠性。
b.单变量图像差值法:这种方法用于处理图像数据,通过计算不同图像之间的差异来提取特征或识别变化。
c.图像比值法:通过将两个图像的对应像素值进行比值运算,可以突出显示某些特征或变化,这种方法在遥感影像分析中特别有用。
HIS 变换:是一种在遥感领域中常用的数据融合方法,使用经过直方图匹配调整后的亮度分量替换多光谱图像的亮度分量,然后与色调和饱和度分量一起进行IHS逆变换,得到最终的融合图像。
小波变换:小波变换可以将多个图像融合为一个单一的图像,通常涉及选择性地合并不同图像的小波系数。
主成分变换(PCT):在数据融合领域中,它可以用来降低数据的维度,同时保留数据中最重要的特征和信息,在遥感图像处理中,在遥感图像处理中,PCT可以用于图像的融合和增强,通过合并多个波段的数据来提高图像质量。
K-T 变换:在图像融合和图像分析中,K-T变换可以帮助提取图像的主要特征,如纹理和形状。
特征级融合:属于中间层的融合,对数据进行特征提取后融合
类型:概率论统计、逻辑推理、神经网络、基于特征抽取的融合方法、基于搜索的融合方法、基于三角模糊数与加权平均算子方法
决策级融合:是对分析结果的融合
类型:模糊集、贝叶斯估计、专家系统
引用的标准:
1.GB/T42135-2022 智能制造 多模态数据融合技术要求
2.GB/T41563-2022 消费品安全数据融合与集成通则
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。