赞
踩
过去多年来,阿里巴巴一直坚持把技术的持续创新力作为重要的企业能力,持续推动对下一代技术的探索创新。单是今年上半年,阿里巴巴在计算机科学前沿领域里,被收录的中国计算机协会推荐的国际A类顶会论文已经达到200余篇。
今天,我们聚焦计算机视觉、自然语言处理、机器学习、数据库、计算机系统五大技术领域,为大家精选了25篇有突破性的顶会论文,一起探索前沿热点创新成果。
希望本文能对大家提供一些有价值的参考,欢迎大家一起在留言区讨论。
编者按:CVPR是计算机视觉方向的三大顶级会议之一,主要内容是计算机视觉与模式识别技术;IJCAI是人工智能领域中最主要的学术会议之一;ICLR是深度学习领域顶会之一,关注有关深度学习各方面的前沿研究;ACM MM是多媒体领域顶会,研究领域覆盖图像、视频、音频、人机交互、社交媒体等多个主题。这里精选了其中九篇有代表性的工作为大家进行简要介绍。
1. 用于单目物体位姿估计的端到端概率n点透视算法
CVPR 2022:EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation
论文摘要:利用透视点(PnP)基数从单个 RGB 图像中定位 3D 物体是计算机视觉领域一个长期存在的问题。在端到端深度学习的驱动下,近期的研究建议将 PnP 解释为一个可微分层,如此 2D-3D 点对应就可以部分地通过反向传播梯度 w.r.t. 物体姿态来学习。然而,从零开始学习整套不受限的 2D-3D 点在现有的方法下很难收敛,因为确定性的姿态本质上是不可微的。
这篇论文提出了一种用于普遍端到端姿态估计的概率 PnP 层——EPro-PnP(end-to-end probabilistic PnP),它在 SE 流形上输出姿态的分布,实质地将分类 Softmax 带入连续域。2D-3D 坐标和相应的权值作为中间变量,通过最小化预测姿态与目标姿态分布之间的 KL 散度来学习。其基本原理统一了现有的方法,类似于注意力机制。EPro-PnP 的性能明显优于其他基准,缩小了基于 PnP 的方法与基于 LineMOD 6DoF 的姿态估计以及 nuScenes 3D 目标检测基准的特定任务方法之间的差距。
2. 基于重投影提升神经辐射场的视角外插能力
CVPR 2022:Ray Priors through Reprojection: Improving Neural Radiance Fields for Novel View Extrapolation
论文摘要:神经辐射场 (NeRF) 已成为场景表征以及高质量图像合成的有效方案。传统 NeRF的主要问题在于:其无法在与训练视点有着显著不同的新视角下进行高质量的渲染。对此,我们提出了RapNeRF (RAy Priors),通过随机视线投射以及视角先验信息大大提升了极端视角的鲁棒性,保证了高质量的图像合成。
3. 面向未裁剪视频的基于多层级一致性的自监督视频表征学习
CVPR 2022:Learning from Untrimmed Videos: Self-Supervised Video Representation Learning with Hierarchical Consistency
论文摘要:自然的无剪切长视频通常包含更丰富的语义信息,且更容易获取,在实际场景中有着非常重要的应用价值。然而现有视频自监督方法在长视频中却呈现出明显的性能下降,主要原因是其太强的时空一致性假设,这种假设在长视频中难以成立。因此,我们提出了分层一致性的方法—HiCo来直接进行长视频自监督,HiCo主要包括视觉一致性学习和主题一致性学习,即时间距离相近但视觉相似的片段保持视觉一致,时间相差较远但是表达内容语意相同的片段被认为主题一致,从两个维度进行表征学习。
4. 关注视觉骨干:一种用于端到端视觉定位的查询调整优化网络
CVPR 2022:Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding
论文摘要:本工作主要解决视觉定位领域,现有模型的视觉骨干网络抽取特征与查询文本不一致的问题。我们注意到抽取不一致特征的根源在于视觉骨干网络是文本不感知的,因此提出利用查询文本特征对预训练的骨干网络进行调整,以提升视觉定位模型的性能。
5. LTP:基于车道片的自动驾驶轨迹预测
CVPR 2022:LTP: Lane-based Trajectory Prediction for Autonomous Driving
论文摘要:随着自动驾驶技术的快速发展,如何理解并预测动态驾驶环境中周围目标的行为已经成为自动驾驶系统落地过程中的重要一环。轨迹预测任务的结果是自动驾驶系统自主决策的重要信息之一。该任务旨在根据目标(如车辆、行人等交通参与者)当前及历史轨迹信息、环境信息等,对目标未来可能的行驶轨迹进行预测。轨迹预测任务存在交互关系难建模、预测过程多模态和预测结果难解释的难点。
因此,我们提出了一种基于车道片级锚点的两阶段轨迹预测方法。该方法将细粒度切分的车道片作为一种具有解释性的可共享型锚点,使用图神经网络和Transformer分别建模地图和周围目标的形状信息和交互关系,通过基于方差的非最大值抑制策略选择代表性轨迹以确保预测输出的多模性。在多个数据集上的实验表明,该方法的性能优于现有方法,在保证预测结果多模性的基础上能够有效提升轨迹预测的准确性。此外,该方法可以在闭环仿真中实现较低的碰撞率和较少的越界行为,并获得可靠的性能。
6. 用于无监督域适应的跨域Transformer
ICLR 2022:CDTrans: Cross-Domain Transformer for Unsupervised Domain Adaptation
论文摘要:为了解决目标场景无标注数据的问题,本文提出了一种基于交叉注意力机制的跨域方法(CDTrans)。该方法利用了交叉注意力机制对于噪声的强鲁棒性的特点,来进行不同场景的分布对齐。
7. Entroformer:基于Transformer的图像压缩概率模型
ICLR 2022:Entroformer: A Transformer-based Entropy Model for Learned Image Compression
论文摘要:图像压缩是计算机视觉领域一个基本性的任务。图像压缩的关键在于如何估计更准确的数据分布空间, 从而能够对图像数据进行更好的编码, 来得到更优的压缩率。本文提出基于Transformer的概率模型来得到更准确的分布估计, 同时对模型的效率进行了优化, 在提升了压缩性能的同时保持了较优的解压缩效率。
8. 感知图像内容的创意布局自动生成方法
IJCAI 2022:Composition-aware Graphic Layout GAN for Visual-textual Presentation Designs
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。