赞
踩
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—> CV 微信技术交流群
A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective
论文:https://arxiv.org/abs/2209.13232
近年来,由于在图表示学习(representation learning on graphs)和非网格数据(non-grid data)上的性能优势,基于图神经网络(Graph Neural Network)的方法被广泛应用于不同问题并且显著推动了相关领域的进步,包括但不限于数据挖掘(例如,社交网络分析、推荐系统开发)、计算机视觉(例如,物体检测、点云处理)和自然语言处理(例如,关系提取、序列学习)。
考虑到图神经网络已经取得了丰硕的成果,一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展,以及从现有论文中总结经验和产生新的想法。可惜的是,我们发现由于图神经网络在计算机视觉中应用非常广泛,现有的综述文章往往在全面性或者时效性上存在不足,因此无法很好的帮助科研人员入门和熟悉相关领域的经典方法和最新进展。同时,如何合理的组织和呈现相关的方法和应用是一个不小的挑战。
图神经网络发展史在本文中,我们首先介绍了图神经网络的发展史和最新进展,包括最常用、最经典的图神经网络和图Transformer。然后,我们以任务为导向对计算机视觉中基于图神经网络(包括图Transformer)的方法和最新进展进行了全面且详细的调研。具体来说,我们根据输入数据的模态将图神经网络在计算机视觉中的应用大致划分为五类:自然图像(二维)、视频、视觉+语言、三维数据(例如,点云)以及医学影像。在每个类别中,我们再根据视觉任务的不同对方法和应用进一步分类。
建立在自然图像(二维)上的视觉任务包括 Image Classification (multi-label、few-shot、zero-shot、transfer learning),Object Detection,Semantic Segmentation,和 Scene Graph Generation。
建立在视频上的视觉任务包括 Video Action Recognition,Temporal Action Localization,Multi-Object Tracking,Human Motion Prediction,和 Trajectory Prediction。
视觉+语言方向的任务包括 Visual Question Answering,Visual Grounding,Image Captioning,Image-Text Matching,和 Vision-Language Navigation。
建立在三维数据上的视觉任务包括 3D Representation Learning (Point Clouds、Meshes),3D Understanding (Point Cloud Segmentation、3D Object Detection、3D Visual Grounding),和 3D Generation (Point Cloud Completion、3D Data Denoising、3D Reconstruction)。
建立在医学影像上的任务包括 Brain Activity Investigation,Disease Diagnosis (Brain Diseases、Chest Diseases),Anatomy Segmentation (Brain Surfaces、Vessels、etc)。
这种以任务为导向的分类法使我们能够研究不同的基于图神经网络的方法是如何处理每个任务的,以及较为公平地比较这些方法在不同数据集上的性能。在内容上我们还涵盖了基于Transformer的图神经网络方法,和在ECCV2022上发表的相关文章。
已覆盖的计算机视觉中的相关领域在文章中我们指出了图神经网络在视觉任务中面临的挑战,同时也揭示了一些鲜有人研究但是很有意义的方向,例如,如何从规则网格数据中获得抽象的图结构。这篇综述不仅帮助研究人员回顾了最新的技术进展,而且还可以作为计算机视觉从业者的参考手册,方便他们对实际问题进行分类并寻找潜在的解决方案。
上面综述PDF下载
后台回复:GNN综述,即可下载上面论文
- 图神经网络和Transformer 交流群成立
- 扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-图神经网络或Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
- 一定要备注:研究方向+地点+学校/公司+昵称(如GNN / Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
-
- ▲扫码或加微信号: CVer222,进交流群
- CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!
-
- ▲扫码进群
- ▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。