当前位置:   article > 正文

多模态大模型:关于分辨率那些事儿_支持大分辨率的多模态模型

支持大分辨率的多模态模型

多模态大模型:关于分辨率那些事儿

一:DocPedia

1.0 总览

题目: DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding
机构:中科大,字节
论文: https://arxiv.org/pdf/2311.11810.pdf
代码: 未开源
任务: OCR-free document understanding(感知与认知)
特点: 非像素空间,而是频域空间处理
前置工作:LLaVAR [55], mPLUG-DocOwl [51], and UniDoc [9],Donut [18], KOSMOS-2.5 [31], and Pix2Struct [20],UReader [52]

1.1 研究动机

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/723919
推荐阅读
相关标签
  

闽ICP备14008679号