赞
踩
题目:通过
ℓ
1
\ell_1
ℓ1范数距离的非贪婪比最大化学习多实例图像表示 (Learning multi-instance enriched image representations via non-greedy ratio maximization of the
ℓ
1
\ell_1
ℓ1-norm distances)
代码:
摘要:近年来多示例 (MIL) 在图像应用领域效果显著。然而,两个关键挑战阻碍了MIL在图像中的有效应用:
1)现有方法通常基于图像中的实例建模,而非完整图像。这可能丢失图像作为整体输入时所传达的信息;
2)输入图像中的实例数量可变,导致传统单向量方法不适用。
对此,本文提出一种新的图像表示学习方法,将输入图像 (包) 的局部块 (实例) 及其整体表示集成为一个单向量:
1)首先学习投影以保持输入图像实例的全局和局部一致性;
2)然后将同一图像的整体表示投影到所学习的子空间中,以丰富信息;
3)考虑到自然场景和照片中内容和特征的变化,开发了优化目标,即使得许多
ℓ
1
\ell_1
ℓ1范数之和的比例最大化;
4)给出了一种新的有效的非贪婪迭代算法,并严格证明了算法的收敛性。一个示意如下图:
Bib:
@inproceedings{liu2018learning,
author = {Kai Liu and Hua Wang and Fei Ping Nie and Hao Zhang},
title = {Learning multi-instance enriched image representations via non-greedy ratio maximization of the $\ell_1$-norm distances},
booktitle = {{IEEE} Conference on Computer Vision and Pattern Recognition}
year = {2018},
pages = {7727--7735}
}
符号表如下:
符号 | 含义 |
---|---|
矩阵 | 粗体大写字母 |
向量 | 粗体小写字母 |
t r ( M ) = ∑ i m i i \mathbf{tr(M)}=\sum_im_{ii} tr(M)=∑imii | 矩阵 M = [ m i j ] \mathbf{M}=[m_{ij}] M=[mij]的迹 |
∥ M ∥ 1 = ∑ i ∑ j ∣ m i j ∣ \|\mathbf{M}\|_1=\sum_i\sum_j\mid m_{ij}\mid ∥M∥1=∑i∑j∣mij∣ | 矩阵 M \mathbf{M} M的 ℓ 1 \ell_1 ℓ1范数 |
v = ∑ i ∣ v i ∣ \mathbf{v}=\sum_i\mid v_i \mid v=∑i∣vi∣ | 向量 v \mathbf{v} v的 ℓ 1 \ell_1 ℓ1范数 |
∥ v ∥ 2 = ∑ i v i 2 \|\mathbf{v}\|_2=\sqrt{\sum_iv_i^2} ∥v∥2=∑ivi2 | 向量 v \mathbf{v} v的 ℓ 2 \ell_2 ℓ2范数 |
X = { x , X } \mathcal{X}=\{ \mathbf{x}, \mathbf{X}\} X={x,X} | 图像 |
x ∈ R d \mathbf{x}\in\mathbb{R}^d x∈Rd | 图像的整体表示 |
X = [ x 1 , … , x n ] ∈ R d × n \mathbf{X}=[\mathbf{x}_1,\dots,\mathbf{x}_n]\in\mathbb{R}^{d\times n} X=[x1,…,xn]∈Rd×n | 语义块的集合 |
基于以上符号系统,每一个图像看作是包含实例 (语义块) 的包,且每个包中的实例数量通常不同。
不同于以往的MIL,基于输入图像的实例建模,本文的目标为习得一个输入图像到单向量表示
y
=
f
(
X
)
\mathbf{y}=f(\mathcal{X})
y=f(X)的函数,其用于捕捉图像的局部块及整体信息。由于图像的每一个单向量是等长的,则可以使用任意的单实例模型进行学习。简单来说,这是一个基于映射的MIL方法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。