赞
踩
2023年2月24日下午,第四届OpenI/O启智开发者大会NLP大模型分论坛在深圳人才研修院隆重举办。
NLP大模型论坛会议现场
众多NLP领域顶级专家学者与多家国产NLP大模型开发团队汇聚一堂,学术界与产业界破圈交流,激荡尖端思想、分享前沿动态,院士、专家、从业者等行业领军人共话挑战、共商机遇、共谋发展,共同探讨“开源集智创新探索中文NLP大模型生态发展”。
清华大学计算机系教授、欧洲科学院外籍院士、ACL Fellow孙茂松,华为诺亚方舟实验室语音语义Lab主任蒋欣,IDEA研究院讲席科学家、认知计算与自然语言研究中心负责人张家兴,阿里巴巴达摩院资深算法专家、AliceMind大模型团队负责人黄松芳,清华大学计算机系副教授刘知远,蓝驰创投投资合伙人石建平,鹏城实验室-AITISA联盟算力网推进组组长余跃等专家出席会议并针对NLP领域热点问题做主题演讲。
圆桌讨论环节
在圆桌论坛环节,孙茂松、徐睿峰、黄松芳、刘知远、石建平、王晖作为嘉宾参与讨论,鹏城实验室云计算所副所长相洋进行主持。与会院士、专家围绕“NLP大模型技术与应用十大挑战”展开系列探讨,发表真知灼见和独到见解。
鹏城实验室云计算所副所长 相洋
第一大挑战:ChatGPT现象级产品出现以后,中国NLP领域在学术研究和技术攻关方面会发生什么变化?趋势是什么?
孙茂松提出在新技术刚出来的阶段,重点在于技术上能不能实现。在未来两年内可以先做大模型,再做小模型,从而达到技术上很大的改观。
清华大学计算机系教授 孙茂松
黄松芳认为超大模型需要率先部署推理,不同层次的模型才有服务和发展的空间。
徐睿峰分析到所有研究都是创兴和演进的过程,ChatGPT并非终端形态。
第二大挑战:当模型变到百亿千亿,它的微调会变得非常困难,对于十亿、百亿的大模型,如何对它进行微调、让它更好地适配到下一个任务?
刘知远提出,在这种情况下,我们可以做到仅仅去优化其中非常少的一部分参数,而保持整个模型的大部分参数不变,就可以完成任务的适配。这样处理,一方面,在计算上可以节省50%到70%的显存;另一方面,在存储上,所有模型的大部分参数都不需要变化,这样就不再需要针对每一个任务去存全参数为调的大模型。
清华大学计算机系副教授 刘知远
第三大挑战:从国家的角度来讲,有没有可能调动全社会的力量,各个阶层各个产业的力量,共同把这个事情做大做好?
石建平认为,人工智能实际上代表的是一个文明,权威的中国史书必定由中国人自己书写。权威的高质量的数据的分发,无论是对国家来说还是对产业界来说,对建立中国特色的大模型都具有非常大的作用。
王晖表示,从国家的角度来说,首先基于鹏城云脑建中国算力网,就是为了支持国家的战略,大模型的战略,大模型未来可能会成为国家各种政治、安全,在军事领域会全方位渗透,肯定是国家的杀手锏武器,国家必须在这方面掌握主动权;另外从数据的角度,数据是国家重大的工程,数据工程要秉持开源开放的原则,大家共建共享,通过开源开放提供给全社会,为国家战略服务。
孙茂松提到,数据安全和隐私问题,离不开政府指导意见。同时,科技机制的创新, 既需要政府,也需要企业。
第四大挑战:从企业的角度来讲,头部企业是不是应该合作起来?
黄松芳在企业是否应该互相合作的问题上,表示,大模型发展到一定程度,最大的壁垒其实是数据。头部企业无论是要做算力聚合,还是要做数据聚合,都有一定的复杂性,同时,也必须要在国家规定的框架里行事。
阿里巴巴达摩院资深算法专家 黄松芳
第五大挑战:目前,推动开源开放路线的困境和挑战是什么?
王晖表示,AIGC的出现、ChatGPT的爆火都表示未来是智能计算,从云计算到智能计算,以智能驱动为核心的计算时代可能就要到来,中国算力网就是支撑这种智能时代的基础设施。但现在有一个问题,我们不能完全基于GPU、英伟达的机器,以国家实验室来支撑向社会的开放,以补贴的方式来让用户更多的使用,是我们的远景。
孙茂松指出,算力和算力网都是必要的,国产芯片和国产开源环境发展仍然需要国家力量支撑,目前来看,鹏城实验室很适合做这个事情。
徐睿峰从未来发展的角度分析,支持国产平台架构迭代更新势在必行,这也是鹏城实验室和中国算力网赋予它的国家级层面重大的任务,国家级平台有责任推动这件事。
哈尔滨工业大学深圳计算机学院教授 徐睿峰
第六大挑战:OpenAI自GPT3后的很多大模型都不开源了,从技术发展和商业诉求两方面综合考虑如何看待这种现象?将来的发展趋势可能是什么?
石建平从学术界出发认为大模型要坚持开源开放,国内的软件行业这几年从企业服务到基础设施受惠于开放,要长期开源,也需要商业闭环。
蓝驰创投投资合伙人 石建平
第七大挑战:中国算力网是目前国家正在推进的重大项目,算力网建立以后的应用生态怎么构建?怎么支持更大的生态体系?
王晖认为中国算力网是支撑智能时代的基础设施,大模型智能时代要重新考虑应用生态需要重新构建。
鹏城实验室云计算所研究员 王晖
孙茂松则指出算力问题,强大的算力网是很有必要的。单点的算力不够,需要把全国的力量集中起来。
徐睿峰支持国产开源开放平台建设通过编程架构和应用不断迭代演进,把算力问题解决掉,这也是鹏城实验室和中国算力网赋予它的国家级层面重大的任务。
总而言之,这需要各行各业的通力合作,包括高性能计算、芯片、网络通信、AI和广大用户,组织高度集中起来,才能更加提高工作效率。
第八大挑战:目前大模型逐渐统一到transformer的基础架构上,是否会有其他的更好的基础架构?
刘知远认为transformer不是最终形态,随着底层的硬件设计演进一系列的特性,transformer有很大演进的空间。
孙茂松则认为transformer的架构在未来几年颠覆不了,除非算力发展得更加强大,出现新的算法将transformer架构颠覆掉。
在圆桌讨论过程中,王怀民院士也提出问题与各位专家探讨,即第九大挑战:随着大模型承载的内容和数据越来越多,它能不能通过训练变得更“智能”,更自主地持续性学习?
刘知远提出三个相关发现:一是现在的大模型本身呈现出来的特性,数据要远小于本来假设的大模型的参数需要的数据规模,在满足过参数化现象的阶段,数据越多,效果会越好。二是ChatGPT所表现出来的差别会体现在百亿模型和千亿模型,千亿模型的记忆力比百亿模型强很多,从这一点上来说,模型越大,记忆力越强。三是神经元的特异性以及模块化稀疏激活的现象,完全可以做到只是在跨模型之间实现迁移的能力。
孙茂松则提出了GPT3用语言模型实现了功能分区的大胆猜测。观察大模型比观察人脑要方便得多,实际上大模型为研究人脑提供了一个绝佳的实验条件。
王怀民院士认为大模型产生后,获得了观察智力或者认知的人造模型,人工构造的结构通过深度网络的学习能够产生人类相似的能力。大模型既然能实现功能分区,还能形成稀疏关系,而不是对全网的破坏性影响。认知本质的问题在于研究观察新手段,按照目前算力网络基础设施继续建设的话,我们可以让网络的连接远超出一个人的神经网络,持续把人类积累的文明都吸纳进去,用工程化的方法进行探索和实践。
中国科学院院士 王怀民
发言的最后,王怀民院士升华了问题的讨论,首先他指出我们做的很多事情不应该只看经济成本,而要看对社会、国家、人类的积极拉动作用;其次,像中国算力网这样跨时代基础设施的建成,将会爆炸式的点燃国家创新能力,极大繁荣我国人工智能技术发展,赋能各行各业产生巨大价值。
他表示,在中国我们要有更大的视野,建设算力网,一方面要建设软硬件,另一方面也要建设引爆性要素。开源生态的意义就在于互相成就,通过开源,我们将做到智力融资,我们也将以更低的成本找到通路人和同路人。人类社会的发展,依靠的就是并肩同行。
第十大挑战:NLP大模型技术所面临的挑战以及未来的方向展望。
黄松芳认为一是要正视差距,二是要脚踏实地,争取带动大模型领域新的研究。
徐睿峰从自然语言发展的历史出发,在数据层面统一的解决方式仍然存在着鲁棒性不佳的问题;从因果机制的角度出发,在data追问的同时应该考虑data和knowledge共同追问的研究。
孙茂松提出要加强对大末学科学激励的研究,未来,这有可能推动人工智能提升到新的境界。
石建平、王晖、刘知远认为ChatGPT吹响了通往人工智能的号角,呼吁更多的青年学生加入到大模型的研究中,鼓励年轻学者拥抱AI时代,开源生态,构建未来。
本次论坛的成功举办,离不开鹏城实验室、新一代人工智能产业技术创新战略联盟(AITISA)的大力支持。院士、专家、从业者、在场观众对于NLP大模型技术与应用落地相关问题进行探讨,希望可以汇聚智慧,打破壁垒,形成共识,并通群策群力、开源开放,进一步突破探索,打造出具有中国特色的NLP解决方案。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。