赞
踩
汇报人:吴琦
讲座回放:青源Talk第12期|吴琦:视觉-语言导航新进展:Pre-training与Sim2_哔哩哔哩_bilibili
主题:
①Pre-training:探索order与history在预训练中的作用
②Sim2Real:减小离散环境和连续环境之间的gap
注意两个数据集的差异
VLN与普通VL的区别:①依赖于“过去的经验”(部分可见的马尔科夫过程);②与空间时序信息有关
提出了新的预训练范式:三种下游任务;五种预训练任务(其中③④⑤是新提出的)
HOP与之前工作的区别:三个预训练任务,考虑了VLN与VL的区别
HOP框架:
Architecture:
注意语言端是position,视觉端为orientation
MLM:对某些词进行mask,要求AI根据环境信息进行还原
TIM:判断instruction是否与一系列的图像匹配
TOM:随机打乱场景顺序,让AI进行排序
GOM:粗粒度的TOM,将group分成两部分打乱;输入instruction与group,判断group为next、previous还是random(即group与instruction无关)
APH:给定history和、instruction和全景图片,让AI判断next view的方向(在全景图片中的方向,一般分为12个)
如何要提出这个问题:离散环境与连续环境之间存在gap ,连续环境中需要做的决策会多很多,出错概率较大
如何解决:在连续的空间中预测离散的点,利用了深度图等信息
如何预测candidate waypoint
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。