赞
踩
关注公众号,发现CV技术之美
数据在研究中的作用极其重要,数据的有无决定了视觉任务是否可以做,数据的质量则决定了视觉任务的精度上限。在某种程度上甚至可以说,计算机视觉是一个数据推动的学科。像ImageNet的出现催生了深度学习的百花齐放一样。
不过如果我们只关注ImageNet、COCO,那CV领域的研究实在是太单调了!
这是52CV关于数据集及数据增广的专栏,关注CV领域新出数据集和数据增广、消除数据偏见的新方法。欢迎持续关注。
今天分享的论文是近两天(1.9-1.10)新出的新数据集和增强方法。
▌Beyond web-scraping: Crowd-sourcing a geographically diverse image dataset
作者单位:普林斯顿大学;Sony AI;Meta AI
代码链接:https://geodiverse-data-collection.cs.princeton.edu/
论文链接:https://arxiv.org/abs/2301.02560
众包地理分布离散的图像数据集。
目前的数据集收集方法通常是从网络上搜集大量的数据。虽然这种技术具有极强的可扩展性,但以这种方式收集的数据往往会加强刻板印象的偏见,可能包含个人身份信息,并且通常来自欧洲和北美。
本次任务中,作者重新思考了数据集的收集范式,并引入了 GeoDE,这是一个地理上多样化的数据集,通过众包收集了包括来自40 个类别和 6 个世界区域的 61,940 张图片,没有个人身份信息。并对GeoDE进行分析,以了解以这种方式收集的图像与网络搜集相比的差异。尽管这个数据集的规模较小,但展示了它作为评估和训练数据集的用途,突出了当前模型的缺陷,并展示了在训练数据集中加入少量GeoDE(每个地区1000-2000张图片)时的改进性能。
▌Tackling Data Bias in Painting Classification with Style Transfer
作者单位:杜伦大学
论文链接:https://arxiv.org/abs/2301.02524
代码链接:https://github.com/41enthusiast/ST-SACLF
绘画作品风格迁移,弥合数据偏差。
由于域差距带来的模型偏差和艺术风格分布不均带来的数据偏差,在绘画作品集上训练分类器很困难。以前的技术,如数据提炼、传统的数据增强和风格迁移,利用特定的任务训练数据集或领域适应性来改善分类器的训练。
我们提出了一个系统来处理像Kaokore数据集这样的小型绘画数据集的数据偏差,同时在微调真实世界图像上训练的模型时考虑到领域适应性。我们的系统包括两个阶段,即风格转移和分类。在风格转换阶段,我们用统一采样的内容和风格图像为每个类别生成风格化的训练样本,并为每个领域训练风格转换网络。在分类阶段,我们可以解释在原始训练数据集和风格化图像上进行训练时,风格和内容层在注意层的有效性。我们可以通过动态改变多数类和少数类中增强样本的比例来权衡模型的性能和收敛性。
我们以较少的训练周期和较少训练参数的分类器取得了与SOTA相当的结果。
▌TWR-MCAE: A Data Augmentation Method for Through-the-Wall Radar Human Motion Recognition
作者单位:北京理工学院重庆创新中心;北京理工大学
论文链接:https://arxiv.org/abs/2301.02488
穿墙雷达信号的数据增强。
为了解决基于穿墙雷达(TWR)信号的人类运动识别由于墙体衰减、多径效应和系统干扰导致的精度降低和收敛时间延长的问题,我们提出了一种多链路自动编码神经网络(TWR-MCAE)数据增强方法。
具体来说,TWR-MCAE算法由一个基于奇异值分解(SVD)的数据预处理模块、一个改进的坐标注意模块、一个压缩传感可学习迭代收缩阈值重建算法(LISTA)模块和一个自适应权重模块共同构建。数据预处理模块实现了墙壁杂波、人体运动特征和噪声子空间的分离。改进的坐标注意模块实现了杂波和噪声的抑制。LISTA模块实现了人体运动特征的增强。自适应权重模块学习了权重并融合了三个子空间。TWR-MCAE可以抑制墙体杂波的低秩特征,同时增强人体运动的稀疏性特征。它可以在分类步骤之前连接起来,以提高特征提取能力,而无需添加其他先验知识或重新收集更多的数据。
实验表明,所提出的算法得到了更好的峰值信噪比(PSNR),从而提高了识别精度,并加快了后端分类器的训练过程。
▌On the challenges to learn from Natural Data Streams
作者单位:博洛尼亚大学
论文链接:https://arxiv.org/abs/2301.03495
自然流数据的机器学习,使用持续学习、流式学习和在线学习的方法。
在现实世界中,有时数据是以自然数据流的形式出现的,即数据的特点是流的性质、不平衡的分布、数据在很长的时间范围内的漂移以及短时范围内样本的强关联性。
此外,传统的训练和部署阶段之间通常缺乏明确的分离。这种数据组织和结果对于传统的机器学习和深度学习算法以及增量学习代理(即有能力通过过去的经验逐步改善其知识的代理)来说都是一个有趣和具有挑战性的场景。
在本文中,我们研究了属于不同研究领域的各种算法的分类性能,即持续学习、流式学习和在线学习,这些算法接受自然数据流作为训练输入。
实验验证是在三个不同的数据集上进行的,这些数据集被明确地组织起来以复制这种具有挑战性的环境。
▌High-Resolution Cloud Removal with Multi-Modal and Multi-Resolution Data Fusion: A New Baseline and Benchmark
作者单位:武汉大学;慕尼黑工业大学;
论文链接:https://arxiv.org/abs/2301.03432
代码链接:https://github.com/zhu-xlab/Planet-CR
遥感领域高分辨率去云任务数据集及baseline。
在本文中,我们介绍了Planet-CR,这是一个多模式和多分辨率数据融合的高分辨率除云基准数据集。Planet-CR是第一个以全球采样的高分辨率光学观测为特征,结合成对的雷达测量以及像素级土地覆盖注释的公共云计算数据集。它为生成视觉上赏心悦目的纹理和语义上有意义的结构方面的详尽评估提供了坚实的基础。
有了这个数据集,我们考虑通过整合多模式和多分辨率信息来解决高分辨率光学遥感图像中的除云问题。现有的基于多模态数据融合的方法,假定图像对是像素对像素对齐的,因此不适合这个问题。为此,我们设计了一个新的基线,名为Align-CR,用于进行低分辨率SAR图像引导的高分辨率光学图像云的去除。它在重建过程中隐含了对多模式和多分辨率数据的对齐,以促进云的去除性能。
实验结果表明,所提出的Align-CR方法在视觉恢复质量和语义恢复质量方面都有最佳表现。
▌EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset
作者单位:Meta Platforms Inc
论文链接:https://arxiv.org/abs/2301.03213
Long-term 第一视角视频目标跟踪数据集。
视觉对象跟踪是许多以自我为中心的视觉问题的一个关键组成部分。然而,在许多现有的数据集中,体现人工智能所面临的以自我为中心的跟踪的全部挑战都没有得到充分体现;这些数据集往往集中在相对较短的第三人称视频上。以自我为中心的视频有几个不同于以往数据集的特点:频繁的大型相机运动和手与物体的互动通常会导致遮挡或物体退出画面,而且由于视角、比例或物体状态的巨大差异,物体的外观会迅速变化。
第一视角的跟踪自然也是long-term的,能够在甚至长达一生的时间里始终如一地将物体与它们的出现和消失联系起来是至关重要的。以前的数据集没有充分强调这个重新探测的问题,它们的 "框架 "性质导致了采用各种时空先验,而我们发现这些先验不一定适用于以自我为中心的视频跟踪。
因此,我们引入了EgoTracks,一个用于长期以自我为中心的视觉物体追踪的新数据集。这个新的数据集来源于Ego4D数据集,它对最近最先进的单物体追踪模型提出了重大挑战,我们发现与流行的基准相比,新数据集的传统追踪指标得分很低。
我们进一步展示了可以对STARK追踪器进行的改进,以显著提高其在以自我为中心的数据上的性能,从而形成一个我们称之为EgoSTARK的基线模型。我们公开发布了我们的注释和基准,希望我们的数据集能带来追踪方面的进一步进步。
▌The Algonauts Project 2023 Challenge: How the Human Brain Makes Sense of Natural Scenes
作者单位:柏林自由大学;麻省理工学院;法兰克福大学;明尼苏达大学;Hessian Center for AI (hessian.AI)
论文链接:https://arxiv.org/abs/2301.03198
挑战赛主页:http://algonauts.csail.mit.edu/
采集人看到某些自然场景图像时脑核磁共振fMRI图像,研究其相关性的挑战赛。
生物和人工智能的科学正日益交织在一起。神经计算原理激发了新的智能机器,而这些机器又被用来推进对大脑的理论理解。为了促进生物和人工智能研究人员之间的进一步交流和合作,我们推出了2023年的阿尔戈纳特项目挑战:人脑如何理解自然场景。
这一期促使人工智能和生物智能领域走到一起,利用最大、最丰富的视觉场景fMRI反应数据集--自然场景数据集(NSD),建立视觉大脑的计算模型。NSD为约73,000个不同的自然彩色场景提供了高质量的fMRI反应,使其成为2023年挑战赛所提倡的数据驱动的模型构建方法的理想候选者。
这项挑战对所有人开放,并通过每次提交后自动更新的公共排行榜,使结果具有直接的可比性和透明度,从而允许快速开发模型。
▌Advanced Data Augmentation Approaches: A Comprehensive Survey and Future directions
作者单位:都柏林城市大学等
论文链接:https://arxiv.org/abs/2301.02830
代码链接:https://github.com/kmr2017/Advanced-Data-augmentation-codes
高等数据增广方法综述。
深度学习(DL)算法在各种计算机视觉任务中表现出显著的性能。然而,有限的标记数据导致了网络过拟合问题,与训练数据相比,未见过的数据上的网络性能很差。因此,它限制了性能的提高。
为了应对这个问题,人们提出了各种技术,如放弃、规范化和高级数据增强。其中,数据增强的目的是通过包括样本多样性来扩大数据集的规模,是近来的一个热门话题。
在这篇文章中,专注于先进的数据增强技术。提供了数据增强的背景,一个新的和全面的数据增强技术的分类法,以及每种技术的优点和缺点(只要有可能)。还提供了数据增强对三个流行的计算机视觉任务的影响的综合结果,如图像分类、目标检测和语义分割。为了结果的可重复性,汇编了所有数据增强技术的可用代码。
最后,讨论了挑战和困难,以及研究界可能的未来方向。作者表示这项调查为读者提供了了解数据增强的工作机制,以解决过拟合问题,以及可以节省研究者的搜索时间,以进行比较。
END
欢迎加入「数据与增广」交流群
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。