多模态大模型：关于分辨率那些事儿_支持大分辨率的多模态模型

作者：盐析白兔 | 2024-06-15 21:34:09

踩

支持大分辨率的多模态模型

多模态大模型：关于分辨率那些事儿

一：DocPedia

1.0 总览

题目: DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding
机构：中科大，字节
论文: https://arxiv.org/pdf/2311.11810.pdf
代码: 未开源
任务: OCR-free document understanding（感知与认知）
特点: 非像素空间，而是频域空间处理
前置工作：LLaVAR [55], mPLUG-DocOwl [51], and UniDoc [9]，Donut [18], KOSMOS-2.5 [31], and Pix2Struct [20]，UReader [52]

1.1 研究动机

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/723919

多模态大模型：关于分辨率那些事儿_支持大分辨率的多模态模型

Overview

多模态大模型：关于分辨率那些事儿

一：DocPedia

1.0 总览

1.1 研究动机