赞
踩
#今日论文推荐#人大高瓴人工智能学院Nature子刊:尝试利用多模态基础模型迈向通用人工智能
最近,中国人民大学高瓴人工智能学院卢志武教授、孙浩长聘副教授、以及院长文继荣教授作为共同通讯作者在国际综合期刊《自然·通讯》(英文名:Nature Communications,简称Nat Commun)上发表题为「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究论文,文章第一作者为博士生费楠益。该工作尝试利用多模态基础模型迈向通用人工智能,并将对各种 AI + 领域(如神经科学和医疗健康)产生广泛的影响。本文是这篇论文的解读。
人工智能的基本目标是模仿人类的核心认知活动,如感知、记忆、推理等。虽然许多人工智能算法或模型在各个研究领域都取得了巨大的成功,但是受限于大量标注数据的获取或是没有足够的计算资源支撑在大规模数据上的训练,大多数的人工智能研究还是只局限于单个认知能力的习得。
为了克服这些局限并向通用人工智能迈出一步,我们以人类大脑处理多模态信息为灵感(如图 1a),开发了一个多模态(视觉语言)基础模型,也即预训练模型。此外,为了让模型获得强大的泛化能力,我们提出训练数据中的图片与文本应遵循弱语义相关假设(如图 1b),而不是图片区域与单词的精细匹配(强语义相关),因为强语义相关假设将导致模型丢失人们在为图片配文时暗含的复杂情感和思考。
论文题目:Towards artificial general intelligence via a multimodal foundation model.
详细解读:https://www.aminer.cn/research_report/62ac05f87cb68b460fd494a8?download=falsehttps://www.aminer.cn/research_report/62ac05f87cb68b460fd494a8?download=false
AMiner链接:https://www.aminer.cn/?f=cs
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。