当前位置:   article > 正文

VALSE2019总结(3)-基于视觉和常识的深度推理

hanwang zhang ntu

3. 基于视觉和常识的深度推理

  • 几乎没啥干货
3.1 视觉场景理解与描述与描述中的物体关系 (shuqiang jiang, CAS)
  • VAD中也涉及到对于不同场景的理解,也许对我有用
  1. 不同距离下的图像表现

    • 场景抽象性:场景是由不同物体及局部区域的组合,相比较物体图像,场景图像更加抽象,更难以识别和理解
    • 比如:(1)常规:ImageNet (2)复杂:COCO, Visual Genome(有一张图)
  2. 视觉场景中的多物体

  3. 关于物体

    • 核心问题:何为物体?发现物体;理解物体;利用物体;描述物体与场景;
  4. 关于物体间关系

    • 同一图像:空间关系,动作关系,属含关系,共生关系,xx关系
    • 不同图像:物体的层次有:实例级,物体级,类别级,知识级,描述级
  5. 四个经典任务:

    • 同一图像
      • 场景识别:物体间的空间位置关系
      • 图像语言描述:物体之间的的上下文关联关系
    • 不同图像
      • 图像搜索:实例级 partial duplicate (去重?)
      • 共同物体检测:不知名的相同物体
  6. 场景:图像中存在的高层概念信息

    • 场景识别的潜在应用
      • 照片自动管理
      • 图像的全面理解
    • 挑战与难点
      • 场景抽象性
      • 类内差异性
      • 类内物体分布多样性
      • 类间相似性
    • 作者的一些工作
      • 直接贴图,有时间再阅读完善
      • 一个不错的思想:利用物体关系进行场景识别
        • 场景内的物体分布可辅助场景识别(新增OOR module, object-object relations)
        • 物体间的共生会混淆场景识别
        • RGB-D的图像数据能更好的表示物体的空间信息
      • 基于空间关系建模的场景识别框架
        • 多种空间关系定义:物体间方向、距离、尺寸的关系
        • 多种空间关系建模:COOR(空间关系特征矩阵建模),SOOR(基于物体与空间关系的图题描述)
        • 具体结构见一张图片
  7. 利用物体上下文信息的语言描述

    • 图片
  8. 基于场景图谱的图像内容描述

    • 图片
  9. 图像共同物体检测

    • 图片
    • 2D image中对一个关于物体的定义:
      • 有一个清晰的闭合曲线边界
      • 与周围有不同的外观
      • 在该物体定义的区域内是突出显著的
    • 物体的概念体系:
      • 类别概念分为:高层,中层(通用物体检测,object detection),实例层
  10. 总结:

    • 物体关系:同一张图像内部不同物体的关系,不同图像之间的物体间关系
    • 利用物体关系来辅助计算机视觉相关任务:场景识别、图像搜索、语言描述、共同物体检测
  11. 一些图片

    801115-20190516095417734-1465173357.jpg

    801115-20190516095445342-266446785.jpg

    801115-20190516095458842-356010405.jpg

    801115-20190516095525058-940125068.jpg

    801115-20190516095535544-229112194.jpg

    801115-20190516095538679-1937289239.jpg

    801115-20190516095546545-1529039426.jpg

    801115-20190516095602379-528622902.jpg

    801115-20190516095607170-12658138.jpg

    801115-20190516095616256-2107488762.jpg

    801115-20190516095620521-280128132.jpg

    801115-20190516095625953-771217269.jpg

    801115-20190516095636652-527366598.jpg

    801115-20190516095643156-1569717334.jpg

    801115-20190516095701043-1925606974.jpg

    801115-20190516095705836-1334502496.jpg

    801115-20190516095717181-271183376.jpg

    801115-20190516095728818-897503226.jpg

    801115-20190516095736474-774979541.jpg

    801115-20190516095741379-94615779.jpg

    801115-20190516095756487-962003071.jpg

    801115-20190516095800044-1491352605.jpg

    801115-20190516095818437-818492705.jpg

3.2 Towards X visual reasoning (hanwang zhang, NTU)
  • 801115-20190516095825583-1919637276.jpg

    801115-20190516100218800-528085124.jpg

    801115-20190516100232594-2050370742.jpg

    801115-20190516100237467-126681070.jpg

    801115-20190516100245452-917229605.jpg

    801115-20190516100254864-831505435.jpg

    801115-20190516100258265-330968427.jpg

    801115-20190516100301998-891537089.jpg

    801115-20190516100309606-66008017.jpg

    801115-20190516100317577-2076805343.jpg

    801115-20190516100324843-706718827.jpg

    801115-20190516100330831-363193340.jpg

    801115-20190516100334028-178852340.jpg

    801115-20190516100337911-1480127154.jpg

转载于:https://www.cnblogs.com/LS1314/p/10885093.html

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/758716
推荐阅读
相关标签
  

闽ICP备14008679号