PRCV 2023 - Day3

作者：神奇cpp | 2024-07-19 13:40:48

踩

prcv

主会场——主旨报告
报告题目：变与不变：有关大模型的一些数理基础问题

讲者：徐宗本（中国科学院院士）

徐宗本院士的演讲首先通过一系列示例阐释了ChatGPT引领了人工智能研究的新浪潮，推动了人工智能从深度学习时代跃入大型模型时代。然后，徐院士指出，尽管大型模型为通用人工智能研究、开发和应用铺平了道路，颠覆了传统的人工智能研发范式和应用模式，但人们对大型模型的理解和应用仍处于“工程化”阶段，距离实现“科学化”还有一段距离。随后，徐院士在报告中辨识了大型模型浪潮下AI数理基础研究的五个关键问题，特别包括大型模型自身的若干数理基础问题，这五个问题分别如下：1.大型模型中相变的存在性：在大型模型中，是否存在与规模相关的定律？是否有可量化研究这些问题的数学工具？2.自监督学习的形式化与数学化方法：对于Transformer等大型模型，其学习能力是否存在极限？这一极限如何进行数学建模？3.大型模型的本质：大型模型的本质是模拟学习方法论，即实现从任务到方法的映射。问题是，任务是否能够通过Prompt序列完备地表示？如果能，如何构建这些Prompt序列？4.自导航（self-navigation）的最优传输 5.大型模型的可塑性与约化理论与方法

这些问题为大型模型和AI领域的未来研究提供了重要方向，有助于将大型模型从“工程化”推进到更为深刻的“科学化”阶段，推动人工智能的发展取得更大的进展。
在这里插入图片描述

图1 变与不变：有关大模型的一些数理基础问题
报告题目：Jittor框架的创新：从视觉任务到与大模型推理训练

讲者：胡事民（清华大学教授）

首先，胡事民教授介绍了清华大学开源的深度学习框架Jittor的背景，在人工智能算法的开发和应用中扮演着重要的软件基础角色。这一由高校研发的框架于2020年3月首度向公众开放。接着，胡教授提到Jittor框架引领了深度学习领域的创新，采用了元算子融合和动态编译技术，并基于"统一计算图"的理念，使其在多个任务领域，包括视觉处理、对抗神经网络、可微渲染、神经辐射场和大型模型等方面的性能都显著超越了国际主流框架如PyTorch等。胡教授重点介绍了清华大学Jittor框架的创新和最新进展，其中包括以下六个关键方面：1.全新的视觉骨干网络：Jittor框架引入了创新性的视觉骨干网络，为计算机视觉任务提供了更加高效的解决方案。2.快速视觉预训练方案：该框架实现了一种快速的视觉预训练方法，可在视觉任务中提供更强大的性能。3.大型模型分布式训练加速：Jittor支持大型模型的分布式训练，提供了更高效的训练过程。4.大型模型推理优化：为了实现更快速的推理，框架对大型模型进行了优化，提供更出色的性能。5.软硬件优化与国产芯片支持

在这里插入图片描述

图2 Jittor框架的创新：从视觉任务到与大模型推理训练
主会场——企业讲坛
报告题目：CV及多模态技术在蝉大师系列产品中的应用与创新

讲者：Blair Lee（蝉妈妈全国市场总负责人）

Blair Lee在此次分享中聚焦于CV（计算机视觉）和多模态技术在蝉大师系列产品中的应用与创新。她首先围绕着蝉大师的核心产品，包括商品直播视频切片和直播数字人，展示了直播换背景和AI换衣技术的卓越效果。这些技术的应用为用户提供了全新的交互和购物体验。接着，Blair Lee分享了她们在积极探索CV技术在电商领域的其他应用，如电商产品背景图生成。这种技术的引入可以提高电商平台的产品展示效果，吸引更多的消费者。进一步，Blair Lee提到蝉大师也在深入研究并积累在自然语言处理方向的能力，包括问答机器人、AI数据洞察和自研LLMs等。这些方向的研究表明了蝉大师对多模态技术的不断探索，以满足不断增长的市场需求。最后，Blair Lee指出，蝉大师将致力于将大数据和AI智能赋能于营销领域，以帮助品牌在内容电商时代实现内容营销与电商的数智化经营。这一举措旨在推动品牌的新增长，促进内容与电商领域的更深度整合。

在这里插入图片描述

图3 CV及多模态技术在蝉大师系列产品中的应用与创新
Poster展示
展示者：姜磊、陈纪龙

318实验室小伙伴本次进行了两场Poster展示，两个论文均与医学图像处理有关，展示期间318实验室CV组成员与多位学者进行了各自论文内容细节的探讨，并与这些学者分享了各自最近在开展的工作，例如有大连理工大学的学者在从事病理研究，有新疆大学的学者在从事伪装目标检测的研究，有厦门大学的学者在从事多模态融合的研究，有中南大学的学者在从事医学图像处理的研究等，最后互相添加了联系方式以实现在以后学术上的进一步交流和互相合作

在这里插入图片描述

图4 Poster展示交流
在这里插入图片描述

图5 Poster展示交流
分会场2——特邀报告
报告题目：跨模态对齐的视觉内容理解与生成

讲者：李冠彬（中山大学副教授）

首先，李冠彬教授指出多源异构多媒体数据的快速增长和单一模态内容理解技术的飞速进展，对跨模态学习技术提出了更高的要求。通过生动的实例，他深入探讨了这一领域的重要性。他指出，跨模态学习的两大核心基础问题是跨模态表征和跨模态生成。跨模态表征的关键目标是通过学习实现不同模态之间的语义对齐，从而增强特征的共享和表达。这有助于不同模态数据之间的有意义的比较和交互。而跨模态生成则涉及将不同模态的数据在形式上相互转换，以实现跨模态信息的互操作性，同时保持模态数据的语义一致性。最后，李冠彬教授介绍了他的研究组近年来在跨模态学习领域的尝试，重点关注了图网络信息传播、多模态大模型蒸馏、知识嵌入和结构一致性表征等方面的研究。他还分享了相关技术在跨模态视觉目标定位、跨模态医学信息处理以及数字人视频生成等领域的成功应用验证。他强调了跨模态学习技术在处理多源数据和实现跨模态信息交互方面的重要性，并展示了李冠彬教授及其研究团队在这一领域的杰出工作和成就。他们的研究对于推动多模态数据应用和人机智能交互有着重要意义。

在这里插入图片描述

图6 跨模态对齐的视觉内容理解与生成

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/851809