当前位置:   article > 正文

VALSE 2024 Workshop报告分享┆多模态大模型Monkey及其在文档智能中的应用_valse 2024 报告分享 monket

valse 2024 报告分享 monket

2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

本文对于华中科技大学刘禹良教授所做的报告《多模态大模型Monkey及其在文档智能中的应用》进行总结和分享。

1.报告人简介

刘禹良,华中科技大学人工智能与自动化学院研究员,博士生导师。研究领域包括自动驾驶、文档图像智能、工业检测等。

2.报告概览

汇报中介绍了刘禹良教授团队的研究成果,“Monkey”模型。这一模型在人工智能和计算机视觉领域设定了新的标准,成功解决了现有大型多模态模型在处理高分辨率输入和详细场景理解方面的关键挑战。然后,对该模型的应用进行详细介绍。

3.内容整理

图1  Monkey 的整体架构

图 1展示了“Monkey”模型的整体架构,该架构通过捕捉原始图像的全局特征和分割补丁的局部特征实现高分辨率处理。以下内容是根据刘禹良教授的汇报及其关于“Monkey”模型的研究论文整理得出。相关论文和代码链接已附在文章末尾。

(1)大模型技术正重塑人工智能与人机交互的未来

在全球科技竞争中,人工智能已成为中美和欧盟的战略焦点。中国的二十大报告强调加速推动数据和人工智能驱动的科研范式变革,而大模型技术作为处理复杂任务(如自然语言理解和生成)的高级AI框架,已成为科技企业争夺的制高点。2024年上半年,大模型直接相关的融资事件超过20起,市场规模持续增长。工信部印发关于组织开展2023年未来产业创新任务揭榜挂帅工作的通知,,明确提出在元宇宙、人形机器人、脑机接口等领域的未来产业创新任务。

(2)多模态大模型的突破与应用

多模态大模型无需针对具体任务进行微调,其丰富的预训练知识为文档和场景理解提供了强大支持。这些模型能够处理和整合文本、图像、音频等多种数据类型,产生精确的输出。在场景描述、问答等任务中展现出巨大的成功,并不断从跨模态一致性、视觉-语言融合等多个方面获得能力提升。

(3)创新与挑战

尽管现有的大模型在提升分辨率和数据质量方面取得了进展,但在自主扩张和资源消耗方面仍面临挑战。此外,高清分辨率的多模态大模型“Monkey”已被选为2024年CVPR的亮点论文之一,显示出其在多个领域,包括遥感、医疗、农业、自动驾驶等的广泛适用性。

(4)模型应用展示

1)TextMonkey - 文字多模态人工智能模型 

TextMonkey 在多个国际文本处理测试基准中表现卓越,展示了其强大的文档理解能力和优异的可解释性,尤其在OCRBench中超越了当时的开源多模态大模型。

2)OCRBench - 最全面的文字评估集 

OCRBench 为评估多模态大模型的OCR能力而设计,涵盖29个数据集和5种类型的文字任务,是文字领域中最全面的评估集。

3)VimTS - 文字端到端识别视觉统一模型 

VimTS 能够处理图像和视频中的文字检测和识别问题,支持不同粒度的文字识别,并通过统一的任务处理增强了模型的跨任务能力。

4)GLEE - 纯视觉目标跟踪大模型 

GLEE 能一次性处理图像和视频中几乎所有的目标感知任务,支持多种交互方式和开放词表的目标检测、分割和跟踪。

5)EducationMonkey - 教育视频问答大模型

EducationMonkey 专门处理教育视频内容,能够理解由幻灯片和讲稿组成的视频,并能根据上下文连贯性回答相关问题。

6)PDFMonkey - 多模态大模型

PDFMonkey 支持论文PDF文档的文本和图表的联合理解与问答,采用全文解析、稀疏采样和多模态问答的技术路线,构建了预训练数据集和评测基准。

7)Open-Oracle - 人工智能辅助甲骨文破译大模型 

Open-Oracle 是一个基于人工智能的甲骨文识别和解释系统,旨在辅助破译甲骨文,同时推动甲骨文的大众化和文化传承。

(5)未来展望

更轻量化的设计:未来的多模态大模型将通过硬件优化和高效的微调方式朝向更加轻量化的设计发展,这将使模型能在较低的算力需求下运行,同时保持或提高其性能。

更依赖于视觉基础模型:模型将更多依赖于视觉基础模型,通过上下文学习的方式处理和理解视觉数据,以更好地应对海量数据的挑战。

垂直领域的专属多模态大模型:未来将开发更多针对特定垂直领域的多模态大模型,这些模型将进行多模态指令的微调,深入理解并满足特定领域的需求和挑战,特别是在处理复杂视觉信息时,如医疗、法律、教育或交通等领域。

跨模态协同学习:未来的多模态模型将更加重视跨模态之间的协同学习,使模型能够更有效地结合视觉基础模型与大语言模型,从而提升处理能力。

持续学习和在线学习能力:未来的多模态模型将具备更强的持续学习和在线学习能力,使其能够不断从新数据和实时反馈中自主学习,持续更新和优化其性能。

Monkey代码下载链接:https://github.com/Yuliang-Liu/Monkey

Monkey论文下载链接:https://arxiv.org/abs/2311.06607

TextMonkey论文下载链接:https://arxiv.org/abs/2403.04473

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/655588
推荐阅读
  

闽ICP备14008679号