搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
小蓝xlanll
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
用m语言检查Arxml文件的连线问题
2
二叉树的多种建立方式
3
python面向对象程序设计(我写的第一篇博客吖)
4
proc参数介绍_proc.num参数
5
Git学习笔记(黑马)_黑马git最新笔记
6
2024最新CrossOve软件试用版本下载
7
个人算法与数据结构心得_算法与数据结构心得体会
8
HADOOP启动集群报错JAVA_HOME is not set and could not be found.
9
执行update语句,用没用到索引,区别大吗?_update语句会走索引吗
10
可穿戴设备想怎么做广告?在你手上,甚至扫描你的大脑
当前位置:
article
> 正文
Image-sentence Matching 模型整理 (持续更新)_efficient image and sentence matching
作者:小蓝xlanll | 2024-05-02 07:50:34
赞
踩
efficient image and sentence matching
DeViSE: DeViSE: A Deep Visual-Semantic Embedding Model, NIPS, 2013 (tri, AlexNet, w2v)
SDT-RNN: Grounded Compositional Semantics for Finding and Describing Images with Sentences (tri, CNN, w2v + RNN*)
VSE0: Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models, NIPSw, 2014 (tri, CNN, w2v + LSTM)
Deep Fragment: Deep Fragment Embeddings for Bidirectional Image Sentence Mapping, NIPS, 2014 (tri, R-CNN, w2v)
m-RNN: Explain images with multimodal recurrent neural networks, arXiv, 2014 (LL, VGG16, one-hot + simple RNN)
DCCA: Deep Correlation for Matching Images and Text, CVPR, 2015 (corr, AlexNet, TF-IDF)
DVSA: Deep Visual-Semantic Alignments for Generating Image Descriptions, ICCV, 2015 (tri, R-CNN, w2v + RNN)
LRCN: Long-term Recurrent Convolutional Networks for Visual Recognition and Description, CVPR, 2015 (LL, VGG16, one-hot + LSTM)
m-CNN: Multimodal Convolutional Neural Networks for Matching Image and Sentence, ICCV, 2015 (tri, VGG19, w2v + CNN)
GMM-FV: Associating neural word embeddings with deep image representations using fisher vectors, CVPR, 2015 (VGG19, w2v + GMM + HGLMM)
VQA-A: Leveraging visual question answering for image-caption ranking, ECCV, 2016 (LL, VGG19, BOW + LSTM)
RNN-FV: RNN Fisher Vectors for Action Recognition and Image Annotation, ECCV, 2016 (LL, VGG19, GMM-FV)
SPE: Learning Deep Structure-Preserving Image-Text Embeddings, CVPR, 2016 (tri, VGG19, GMM-FV)
HM-LSTM: Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding, ICCV, 2017 (tri, R-CNN, w2v + LSTM)
sm-LSTM: Instance-aware Image and Sentence Matching with Selective Multimodal LSTM, CVPR, 2017 (tri, VGG19, w2v + Bi-LSTM)
RRF-Net: Learning a Recurrent Residual Fusion Network for Multimodal Matching, ICCV, 2017 (tri, ResNet152, GMM-FV)
2WayNet: Linking Image and Text with 2-Way Nets, CVPR, 2017 (corr, VGG16, GMM-FV)
DAN: Dual Attention Networks for Multimodal Reasoning and Matching, CVPR, 2017 (tri, ResNet152, one-hot + Bi-LSTM)
DPC: Dual-Path Convolutional Image-Text Embedding with Instance Loss, arXiv, 2017 (tri + CE, ResNet152, w2v + ResNet152)
VSE++: VSE++: Improving Visual-Semantic Embeddings with Hard Negatives, BMVC, 2018 (tri, ResNet152, w2v + GRU)
SCO: Learning Semantic Concepts and Order for Image and Sentence Matching, CVPR, 2018, (tri, ResNet152, one-hot + conventional LSTM)
GNX: Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models, CVPR, 2018 (tri + CE + RL + GAN, ResNet152, Bi-GRU)
SCAN: Stacked Cross Attention for Image-Text Matching, ECCV, 2018 (tri, Faster R-CNN (ResNet101), one-hot -> w2v + Bi-GRU)
Multi-task Learning of Hierarchical Vision-Language Representation, CVPR, 2019
Saliency-Guided Attention Network for Image-Sentence Matching, arXiv, 2019 (SOTA now!)
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/小蓝xlanll/article/detail/522948
推荐阅读
article
《读论文系列 图文检索 计算各个样本相似性
TGDT
》Effi
c
ient Token-Guided ...
图像-文本检索包括两个密切相关的任务:文本到图像检索和图像到文本检索。文本到图像检索:旨在从图像候选集中选择与给定文本最...
赞
踩
article
前端
图片
放大
(
Element
UI中的
el
-
image
,
Element
UI中的
图片
放大
功能)_
el
...
Element
UI 中,为了实现
图片
的大图预览功能,可以使用
el
-
image
组件配合
el
-
image
组件来完成。_
el
...
赞
踩
article
TGDAUNet
:
Transformer
and
GCNN
based
dual
-branch a...
TGDAUNet
:基于
Transformer
和
GCNN
的医学图像分割双
分支
关注网络摘要:医学图像的准确、自动分割是临床诊...
赞
踩
article
Towards Unsupervised Deep Ima
g
e EnhancementWith Ge...
AbstractImprovin
g
the aesthetic quality of
ima
g
e
s is challen...
赞
踩
article
【论文阅读】
ESRT
-Trans
for
mer
for
Single
Image
Super
-Reso...
随着深度学习的发展,单图像超分辨率(SISR)取得了长足的进步。然而,大多数现有研究都侧重于构建具有大量层的更复杂的网络...
赞
踩
article
Ambiguous
Medical Image Segmentation
using
Diffusi...
摘要:事实证明,在临床任务中,来自一组专家的集体见解总是优于个人的最佳诊断。对于
医学
图像
分割
任务,现有的基于人工智能的替...
赞
踩
article
Python
神经网络
4之数据读取、
神经网络
_tf.io.
decode
_
png
(
image
, chan...
Python
神经网络
4之数据读取、
神经网络
数据读取文件读取流程构造文件名队列读取与解码批处理线程操作图片数据图像基本知识...
赞
踩
article
GitHub 3.6k Satr自监督学习(
Self
-
Supervised
Learning
)资源你...
自我监督学习已成为AI社区中令人兴奋的方向。Jitendra Malik: "Supervision is the op...
赞
踩
article
低照度增强
--
论文
阅读【《
Toward
Fast
,
Flexible
,
and
Robust
Low...
介绍一篇最近看的低照度增强方面的
论文
——自校准照明,文中所给的方法取得了非常不错的效果,值得我们去学习和思考。
论文
名称:...
赞
踩
article
学习
Python
之
Pygame
开发坦克大战(二)_select_
player
_
num
_tan...
学习
Python
之
Pygame
开发坦克大战 (二)_select_
player
_
num
_
tank
= pygam...
赞
踩
article
【
Flutter
问题系列第 71 篇】
Flutter
中
Uint8List
和
Image
之间...
Flutter
中
Uint8List
和
Image
之间
的
相互转换_
flutter
uint8list
flutter
...
赞
踩
article
【Applied
Intelligence2022
】
Efficient
residual
atten...
本文主要对2022
applied
intelligence
上的论文
Efficient
residual
attentio...
赞
踩
article
python
安装
cfg
模块时报错,
ERROR
: No
matching
distribution
f...
python
安装
cfg
模块时报错,
ERROR
: Could not find a version that satisf...
赞
踩
article
【论文阅读】
ELAN
-
Efficient
Long
-Range
Attention
Network ...
最近,基于变压器的方法通过利用自注意力 (SA) 进行特征提取,在各种视觉任务中展示了令人印象深刻的结果,包括图像超分辨...
赞
踩
article
【论文阅读】Image
Super
-
Resolution
with
Non-
Local
Sparse
...
非局部(NL)操作和稀疏表示对于单图像超分辨率(SISR)都至关重要。在本文中,我们研究了它们的组合,并提出了一种具有动...
赞
踩
article
【每日论文阅读】单目深度估计 近期进展_
m>repurposing
m>
m>diffusion
m>-
m>based
m> i
m
...
尽管如此,单目深度估计器在面对内容和布局不熟悉的图像时往往会遇到困难,因为他们对视觉世界的了解受到训练期间看到的数据的限...
赞
踩
article
12:
Repurposing
Diffusion
-
Based
Image Generators fo...
单目深度估计的扩散模型和相关的协议。核心原理是利用现代生成图像模型中存储的丰富视觉知识。模型源自于稳定扩散和微调合成数据...
赞
踩
article
【红外与可见光
图像
融合
】
Semantic
perceptive infrared and visib...
这项工作侧重于通过网络设计学习语义信息,但对损失函数的改进关注较少。此外,这项工作主要考虑了灰度
图像
的
融合
,这使得将成果...
赞
踩
article
学习记录:
sentence
-
transformers
与
transformers
冲突
_
sentenc...
调整版本:完美解决。
_
sentence
-
transformers
冲突
sentence
-
transformers
冲突
...
赞
踩
article
ONNX
小白入门(1):
sentence
-
transformer
提取
embedding
模型
转onn...
onnx
转换的时候,tokenizer部分是无法被
onnx
的,只有你backone
模型
才能进行转
onnx
,不要问我为啥,...
赞
踩
相关标签
计算机视觉
人工智能
vue.js
elementui
transformer
深度学习
论文阅读
神经网络
python
自然语言处理
数据挖掘
机器学习
pygame
学习
flutter
Uint8List转Image
Image转Uint8List