当前位置:   article > 正文

VALSE Webinar 20-23期 源头活水:自监督与无监督学习探讨_self-supervised visualrepresentation learningfrom

self-supervised visualrepresentation learningfrom videos

【B站】
报告时间:2020年09月16日(星期三)晚上20:00(北京时间)
主题:源头活水:自监督与无监督学习探讨
主持人:姬艳丽(电子科技大学)

报告嘉宾:谢伟迪(VGG, University of Oxford)

报告题目:Self-supervised Visual Representation Learning from Videos

术语

proxy task
在这里插入图片描述

自监督videos

存在问题:
1.训练太弱
2.与下游任务不匹配
解决目的:
学习一个好的表达来predict下一帧
面临挑战:
1.反射光等环境影响
2.摄像者的晃动
3.场景转换
4.多种选择(车子往那儿开)【最终会blur】

在这里插入图片描述

在这里插入图片描述
**解决方法:**用相同的另一模态特征flow/text/sound
在这里插入图片描述

video和声音信息结合

在这里插入图片描述
在这里插入图片描述

video和旁白结合

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

目标跟踪

在这里插入图片描述

报告嘉宾:齐国君(华为美国研究所)

报告题目:变换共变性(Transformation Equvariance)与变换不变性(Transformation Invariance)原理在特征学习的中心作用:一种无监督深度学习的统一视角
在这里插入图片描述

CNN中的平移不变性

在这里插入图片描述
希望能够将这种平移不变性推广,得到变换不变性的网络,得到变换共变性。
在这里插入图片描述
数学表达
在这里插入图片描述
变换不变性是变换共变性的特例
在这里插入图片描述

一种实现变换共变性的方法

在这里插入图片描述

传统编码器和新方法的区别

在这里插入图片描述
我们关心的是encoder部分,但传统的decoder需要重建图像所以需要和encoder近似的深,这样使得反向传播的梯度需要穿过DE,这使得网络在训练E的时候变的比较困难
新的思路:不是decoder图像本身,而是decoder变换本身。decoder去decoder 变换,而不是image这种high level的信息,这样就使得decoder可以比较浅(一两层)
在这里插入图片描述
在这里插入图片描述

引入概率模型

在这里插入图片描述
HR应该也满足IR的变换共变性

变换共变性:原始图像和变换后的图像在特征空间上有可区分性(平移后的图像 特征图也平移)【比如下游的分割任务,变换共变性很重要】
在这里插入图片描述
变换不变性不同的图像区分开来,同一个图像不同变换后的图像能够区分开来。
对比学习等基于变换不变性思想的方法,会将spatial的结构claps,对分类有效,但是对于下游的分割等其他任务,优势就没有那么大了。

能不能将两者有效的结合在一起?变换不变性+变换共变性
在这里插入图片描述
Panel嘉宾:
谢伟迪(VGG, University of Oxford)、齐国君(华为美国研究所)、宫辰(南京理工大学)、武智融(微软亚洲研究院)、左旺孟(哈尔滨工业大学)

Panel议题:

  1. 能否结合自己的经验和体会,就自监督学习研究中如何针对特定的下游(Downstreaming)任务设计恰当的上游(Pre-text)任务给大家一些建议?
    ==在一个distribution上训练的认为,在另一个distribution上有很好的表现。不可能独霸天下,可以对任务进行大类分类,在大类中设置通用的特征表达来满足下游的特征需求。proxy task目前是手动结合,是否可以自动的nas结合,来设定。相关的工作,google auto xxxx,但是这个过程会引入label,会降低泛化性。
  2. 自监督学习与之前的无监督学习方法如聚类、生成式对抗网络的区别与联系,他们之间是否存在结合的可能性?
    自监督学习对任务和数据需要
    聚类统计上比较好,但是缺少对任务的认识。自监督,聚类(facebook deep cluster branch,最新也有一些工作),gan,损失不同而已,不同的下游任务,对下游任务的不同理解,选用不同的方法。cluster推到极限就是,每个都是一个cluster,这就是一个contrastive learning。
  3. 自监督学习及无监督学习方法中目前比较值得关注的研究角度和方向有哪些?
    a.无监督在理论上能保证有更好的泛化性。下层的任务还是需要一层的fine tune,用聚类的方法,是否可以发现无监督与监督之间的gap,是否可以超越。
    b.gan能够更general的变换。
    c.空间的维度(空间的任务),时间的维度(video),怎么处理自监督过程中的错误和误差累积。半监督把网络前多少次的信息作为输入,在时间维度上进行自监督学习。
    d.大家关注imagenet,很Cluster(1000类,200类都是狗),是task set 不应该是一个proxy task。
    e.很多无监督的任务都可以归结于去定义某
  4. 基于图像的自监督学习方法是否会受限于自身的局限性?3D、视频和多模态(如音视频、视觉语言)自监督是否更有优势?
    a.人是在看连续的信息,人是主动的去看,去选择会了就不看了。video比image信息更多,但是数据量太大了,大家可能会恐惧。但是video是human centric,youtube上看见的很多数据是人。
    b.未来是多模态趋势的,如何得到更加统一的方法,需要投入很多的力量去研究的问题。
  5. 相对于自监督学习在自然语言中的巨大的成功,视觉自监督如何能取得更大的突破?
    图像有很大的数据集,但是nlp数据集比较少。所以看起来比较快。nlp和vision是两个颗粒度的任务,nlp就算回答的问题稍微靠谱一点,就感觉很厉害,但是实际上连简单的加减法可能都答不上来。vision的task太多,每一个都需要很大的进步才能感觉到整个领域的进步。
  6. 如何定义和形成一些自监督学习的Benchmark?
    自监督学习是方法,应用本身并没有改变,应该把注意力集中在应用上去。
    现在都是往imagnet上靠,这不是很科学。
  7. 自监督学习及无监督学习当前研究是否有痛点?解决的可能措施有哪些?
    对下游任务的认识,尝试去定义一些上有的proxy task。
    能否对网络结构层面的一些新的认识【网络结构也承载了一些对问题的认识】
    transformer在nlp也会渗透到视觉上
    1.理论角度:缺乏一定的可指示性。(如变换等);下游任务的performance的提升如何保证。
    2.学什么?怎么设置task。怎么学?由易到难,老师教导(蒸馏等)。self-的时候遇见问题,再re-learning。
    3.算法上。轻量化,应用落地。
    4.现在想办法去跟有监督靠拢,这个目标是否是正确的目标?尝试一些无法或者很难用有监督的,难标注的。让自监督更好的展示它的光芒。现在的few-shot不能反映实际的问题。
    5.现在的train的效率太低,imagenet需要反复看800个epoch。
    6.无监督自监督过程中,用到的很多的数据都是经过清洗的,imagenet和下游的数据集差异较大的任务,这种gap如何处理,如何对数据进行处理。

特别鸣谢本次Webinar主要组织者:
主办AC:姬艳丽(电子科技大学)
协办AC:左旺孟(哈尔滨工业大学)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/285671
推荐阅读
  

闽ICP备14008679号