微软提出CLIPBERT：通过稀疏采样的视频语言学习_稀疏分段视频采样

作者：知新_RL | 2024-03-07 19:04:03

踩

稀疏分段视频采样

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

视频和语言学习(例如，视频问答)的规范方法规定了一个神经模型，该模型可以从脱机提取的视觉模型中的密集视频特征和语言模型中的文本特征中学习。这些特征提取器是独立训练的，通常用于不同于目标域的任务，使得这些固定的特征对于下游任务来说不是最优的。此外，由于密集视频特征的高计算过载，通常很难(或不可行)将特征提取器直接插入现有方法中以便进行微调。为了解决这一难题，作者提出了一个通用框架CLIPBERT，该框架通过使用稀疏采样，在每个训练步骤中只使用一个或几个稀疏采样的视频短片段，从而为视频和语言任务提供了负担得起的端到端学习。实验

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/207050