赞
踩
作者丨耶哼Chen@知乎
来源丨https://zhuanlan.zhihu.com/p/385360877
编辑丨3D视觉工坊
1、ICRA2021 - Fast Uncertainty Quantification for Deep Object Pose Estimation
·标题:用于深部目标姿态估计的快速不确定性量化
·作者团队:加州理工学院 & NVIDIA & 德克萨斯大学
基于深度学习的目标姿态估计器通常不太可靠且过于自信,尤其是当输入图像在训练域之外时(例如,使用sim2real传输)。在大多数机器人任务中,都需对姿态估计器中进行要有效的不确定性量化(UQ)。在这项工作中,我们提出了一种简单且高效的UQ方法用于6自由度目标姿态估计。我们将具有不同神经网络架构和/或训练数据源的2-3个预训练模型集成在一起,并计算它们之间的平均成对不一致,以获得不确定性量化。我们提出了四个不同的度量标准,包括一个学习的度量标准,并表明平均距离(ADD)是最好的免学习度量标准,它仅比需要标记目标数据的学习度量标准稍差。与现有技术相比,我们的方法具有几个优点:1)我们的方法不需要对训练过程或模型输入进行任何修改;2)每个模型只需要一个前向传播。我们在三个任务上评估提出的UQ方法,在这些任务中,不确定性量化产生的姿势估计误差相关性比基线强得多。此外,在实际的机器人抓取任务中,我们的方法将抓取成功率从35%提高到90%。
Paper: https://arxiv.org/abs/2011.07748
Code:https://github.com/NVlabs/DOPE-Uncertainty
2、ICRA2021 - REDE: End-to-end Object 6D Pose Robust Estimation Using Differentiable Outliers Elimination
·标题:REDE:端到端6D目标位姿稳健估计网络
·作者团队:浙江大学(ZJU-Robotics Lab)& 北京理工大学
在许多机器人应用中,6D目标姿态估计通常作为一项重要任务。常规方法通过检测和匹配关键点,然后估计姿势来解决任务。深入研究这一问题的最新工作主要是克服了传统方法由于手工制作的特征设计而易受环境变化的影响。但是,这些方法无法同时实现端到端学习和良好的可解释性。在本文中,我们提出了REDE,这是一种使用RGB-D数据的新型端到端目标姿态估计器,该模型利用网络进行关键点回归,并使用可微分几何姿态估计器进行姿态误差反向传播。此外,为了在发生异常关键点预测时获得更好的鲁棒性,我们进一步提出了一种可微分的异常值消除方法,该方法同时对候选结果和置信度进行回归。通过对多个候选者进行置信度加权聚合,我们可以减少最终估计中离群值的影响。最后,遵循常规方法,我们应用了可学习的优化过程来进一步改进估计。在三个基准数据集上的实验结果表明,REDE的性能略优于最新方法,并且对遮挡目标的鲁棒性更好。
Paper: https://arxiv.org/abs/2010.12807
Code: https://github.com/HuaWeitong/REDE
3、ICRA2021 - ParametricNet: 6DoF Pose Estimation Network for Parametric Shapes in Stacked Scenarios
·标题:面向参数化零件堆叠场景的6D位姿估计网络
·作者团队:清华大学
本文提出了一种基于关键点预测和霍夫投票的参数化零件位姿估计网络ParametricNet。首先由模板的驱动参数和对称性定义出与参数关联的关键点,即将物体参数预测问题和位姿预测问题转变为关键点预测问题。然后通过逐点回归网络与投票机制预测出个体的关键点和质心,并在质心空间内实现个体分割,同时由预测质心和关键点解算出参数,实现对应模板零件实例的三维重构,进而确定模板质心和关键点。最后,通过关键点匹配拟合解算出每个物体的6D位姿。已位姿识别非参数化标准数据集中,ParametricNet在位姿估计准确率上大幅优于最新方法(达15%)。另外,本文还构建了一个参数化零件堆叠数据集,为工业零件场景理解技术研究奠定大规模数据基础。ParametricNet在本文提出的参数化零件堆叠数据集中也同样具有优秀的学习能力和泛化能力,在机械臂堆叠抓取的实际场景实验中,ParametricNet可以稳定地实现对未知参数零件的识别和位姿估计。
4、ICRA2021 - Investigations on Output Parameterizations of Neural Networks for Single Shot 6D Object Pose Estimation
·标题:单阶段 6D 物体姿态估计的神经网络输出参数化研究
·作者团队:弗劳恩霍夫制造工程研究所 & 斯图加特大学
单阶段方法在各种计算机视觉任务上取得了巨大的成功。在6D目标姿态估计中,找到好的参数化方法仍然是一个具有挑战的工作。在这项工作中,我们为用于单阶段6D目标姿态估计的神经网络输出提出了新颖的参数化方法。在基于学习的方法的两个公开基准数据集上展示了最好的性能表现。此外,我们证明姿态估计可用于现实世界的机器人抓取任务,而无需额外的 ICP 细化工作。
Paper: https://arxiv.org/abs/2104.07528
5、ICRA2021 - CloudAAE: Learning 6D Object Pose Regression with On-line Data Synthesis on Point Clouds
·标题:基于点云的在线数据合成学习6D物体姿态回归
·作者团队:汉堡大学 & 清华大学
因为手动标注非常耗费资源,所以目前许多工作都基于合成数据训练 6D 姿态估计网络。然而,由于合成图像和真实图像之间的域差距很大,合成逼真彩色图像的成本很高。相比之下,我们的工作在域差距要小得多,而且更容易填充深度信息。我们提出了一个系统,该系统从点云表示的深度信息中回归 6D 目标姿态,以及一个轻量级数据合成通道,该通道创建合成点云片段以进行训练。我们使用增强自编码器 (AAE) 来学习潜码,该潜码为 6D 目标姿态信息的姿态回归编码。数据合成通道只需要无纹理的 3D 对象模型和所需的视点,并且在时间和硬件存储方面都很轻量。我们的数据合成过程比渲染 RGB 图像数据的常用方法快三个数量级。我们展示了我们的方法在 LineMOD、LineMOD Occlusion 和 YCB Video 数据集上的有效性。
Paper: https://arxiv.org/abs/2103.01977
Code: https://github.com/GeeeG/CloudAAE
6、ICRA2021 - RGB Matters: Learning 7-DoF Grasp Poses on Monocular RGBD Images
·标题:学习单目RGBD图像上的7-DOF抓握姿态
·作者团队:上海交通大学
目标抓取是机器人领域一个重要并具有挑战的任务。当前的大多数方法要么生成具有很少 DoF 的抓取姿势,无法覆盖大部分成功抓取,要么仅将不稳定的深度图像或点云作为输入,这在某些情况下可能会导致较差的结果。在本文中,我们提出了 RGBD-Grasp,这是一种通过将 7-DoF 抓取检测解耦为两个子任务,分别处理 RGB 和深度信息来解决这个问题的通道。在第一阶段,提出了像卷积神经网络 Angle-View Net(AVN) 这样的编码器-解码器来预测图像每个位置的抓手的 SO(3) 方向。因此,快速分析搜索 (FAS) 模块计算开口宽度和抓手到抓点的距离。通过解耦抓取检测问题并引入稳定的 RGB 模态,我们的方法减轻了对高质量深度图像的要求,并且对深度传感器噪声具有鲁棒性。与几个 baseline 相比,我们在 GraspNet-1Billion 数据集上取得了最好的成绩。在配备 realsence 摄像头和 Robotiq 双指抓手的 UR5 机器人上进行的真实机器人实验表明无论是单个物体场景还是杂乱场景,都具有很高的成功率。
Paper: https://arxiv.org/abs/2103.02184
Code: [GitHub](coming soon)
7、ICRA2021 - Contact-GraspNet: Efficient 6-DoF Grasp Generation in Cluttered Scenes
·标题:Contact-GraspNet:在无约束复杂场景的中高效 6-DoF 抓取点生成
·作者团队:NVIDIA & DLR & TUM
无约束、复杂环境中抓取未知物体是机器人自主操作的一项重要技能。尽管最近很多研究在 6-DoF 抓取学习方面取得了进展,但现有方法通常由复杂的顺序流程组成,这些pipeline具有多个潜在的问题和不适合闭环抓取的时效。因此,我们提出了一种端到端网络,它可以直接从场景的深度记录中有效地生成 6-DoF 平行抓取的分布。我们提出的抓握表示将记录点云的 3D 点视为潜在的抓握接触点。通过在观察到的点云中建立完整的 6-DoF 抓取姿势和目标宽度,我们可以将我们的抓取表征的维度降低到 4-DoF,这极大地促进了学习过程。我们的方法在 1700 万次模拟抓取上进行了训练,并且可以很好地泛化到现实世界的传感器数据。在对结构化复杂环境未知物体的机器人抓取研究中,我们取得了超过 90% 的成功率,与目前最好的方法相比,失败率降低了一半。
Paper: https://arxiv.org/abs/2103.14127
Code: https://github.com/NVlabs/contact_graspnet
CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth
Interval-Based Visual-LiDAR Sensor Fusion
OmniDet: Surround View Cameras Based Multi-Task Visual Perception Network for Autonomous Driving
VIODE: A Simulated Dataset to Address the Challenges of Visual-Inertial Odometry in Dynamic Environments
[Winner] How to Select and Use Tools? : Active Perception of Target Objects Using Multimodal Deep Learning
Learning Task Space Actions for Bipedal Locomotion
Learning Sampling Distributions Using Local 3D Workspace Decompositions for Motion Planning in High Dimensions
Auto-Tuned Sim-To-Real Transfer
[Winner] Reactive Human-To-Robot Handovers of Arbitrary Objects
Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects Via Physical Simulations
Collision Detection, Identification, and Localization on the DLR SARA Robot with Sensing Redundancy
Automated Acquisition of Structured, Semantic Models of Manipulation Activities from Human VR Demonstration
[Winner] Soft Hybrid Aerial Vehicle Via Bistable Mechanism
A Versatile Inverse Kinematics Formulation for Retargeting Motions Onto Robots with Kinematic Loops
Multi-Point Orientation Control of Discretely-Magnetized Continuum Manipulators
Surface Robots based on S-Isothermic Surfaces
[Winner] Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery
Integrated Voluntary-Reactive Control of a Human-SuperLimb Hybrid System for Hemiplegic Patient Support
Autonomous Robotic Suction to Clear the Surgical Field for Hemostasis Using Image-Based Blood Flow Detection
A Fluidic Soft Robot for Needle Guidance and Motion Compensation in Intratympanic Steroid Injections
[Winner] Optimal Sequential Stochastic Deployment of Multiple Passenger Robots
Self-Organized Evasive Fountain Maneuvers with a Bioinspired Underwater Robot Collective
Learning Multi-Arm Manipulation through Collaborative Teleoperation
Vision-Based Self-Assembly for Modular Multirotor Structures
[Winner] StRETcH: A Soft to Resistive Elastic Tactile Hand
A Parallelized Iterative Algorithm for Real-Time Simulation of Long Flexible Cable Manipulation
KPAM 2.0: Feedback Control for Category-Level Robotic Manipulation
Policy Blending and Recombination for Multimodal Contact-Rich Tasks
[Winner] Compact Flat Fabric Pneumatic Artificial Muscle (ffPAM) for Soft Wearable Robotic Devices
Tactile SLAM: Real-time Inference of Shape and Pose from Planar Pushing
Robotic Guide Dog: Leading a Human with Leash-Guided Hybrid Physical Interaction
BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
[Winner] Aerial Manipulator Pushing a Movable Structure Using a DOB-Based Robust Controller
Pylot: A Modular Platform for Exploring Latency-Accuracy Tradeoffs in Autonomous Vehicles
Motor and Perception Constrained NMPC for Torque-Controlled Generic Aerial Vehicles
Dynamically Feasible Task Space Planning for Underactuated Aerial Manipulators
[Winner] Unsupervised Learning of Lidar Features for Use in a Probabilistic Trajectory Estimator
Unified Multi-Modal Landmark Tracking for Tightly Coupled Lidar-Visual-Inertial Odometry
Planning with Attitude
Cascaded Filtering Using the Sigma Point Transformation
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。