赞
踩
2022年7月29日,在由开放原子开源基金会主办的“2022开放原子全球开源峰会”上,华为计算开源总经理、开放原子开源基金会TOC主席、LF AI & DATA基金会董事主席堵俊平分享了AI领域开源新趋势与思考。
AI构成的三要素是算力、算法和算据。
这样的趋势反映在模型里面,从各种各样的模型慢慢会收敛成一些大模型,适应各种各样的场景。
在算力、算法、算据都在飞速发展的时代,对于整体AI发展及开源发展的新要求参考AI框架演进五大因素,正好是A、B、C、D、E。
第一个趋势是对于算法和数据,数据层面的扩大使模型、算法也会从大模型走向超大模型,从单模态走向多模态。原来可能多场景都可以用一个大模型来搞定,但在当前趋势下有很多挑战:算法的并行开发难度越来越高,模型的训练加速越来越难,超大集群如何协同也很困难。
第二个趋势是AI和科学计算加速融合,AI的拟合计算代替了传统HPC,性能更高,代价更小,效果更好。很多通用计算的场景都慢慢通过AI计算的方式去展现。
Google、NVIDIA都在这个领域发力。同时华为昇思MindSpore,也在打造AI+科学计算融合的架构,在不同的领域加强了研发力量和投入,其核心是把这些面向场景与行业的价值真正带给行业和用户,降低开发者、行业、应用的门槛,这是核心的关键点。
当然,它背后还有很多相应的技术,从AI+科学计算统一建模,传统的数据流的驱动变成控制流+数据流,一阶微分到高阶微分的转化……这里面涉及到很多挑战,同时也能看到很多技术变革的机会。
从AI和芯片的角度来说,DataFlow架构越来越主流,在这样芯片的架构趋势情况下,算力、带宽这些性能都很友好。但可编程能力难度进一步增加。在多机型的部署,从单卡走向单机,从单机走向集群,调优的方式方法不能像传统那样在单机上调优。
对于开发者,一定是得开发者得天下。Python成为AI领域首选的语言与它语言的特点分不开,非常容易上手使用,传统留存也积累了大量各种各样的算法、模型库等。但同时,Python的性能比较差,跨平台部署也比较困难。所以2017年Google推出的静态图,能够克服Python传统的劣势。但发展到一段时间之后,2018年Facebook推出PyTorch时,用了一些动态图,牺牲了一部分的性能,换取了灵活性,使开发工作的效能得到提升。
昇思实现动静态图的结合,既有静态图的性能优势,也有动态图开发者易编程的特点。从静态图出发,把不能识别的算子推到解释器延时执行;从动态图出发,提前缓存一些被编译优化的算法,边解释边执行。
从企业的角度来说,对于AI应用,一方面希望容易部署和管理,更重要的是整体的数据安全。数据准备阶段、模型训练阶段、模型部署应用阶段,都很关键,任何一个地方出现数据的泄露或者被篡改,最后的结果都要功亏一篑。为了阻止或者规避模型安全的问题,需要AI全流程安全的可信框架。
数据集在AI创新和应用中至关重要。早在机器学习发展初期,吴恩达便提出一定要关心数据集,不要认为拼命把算力或是算法提升就能够解决。尤其对于深度学习算法,数据越多,训练的模型精度、准确率越高。
对数据集而言,框架模型构建了整体开源AI全景图,底层的AI部署,包括AI框架、模型的创建训练、后面的推理以及数据的清洗、ETL等,都是在数据层面。每一层都有大量的开源项目大行其道,而且发展得越来越好。
对于企业来说,数据集有三种来源:
其中在使用公开可用数据集方面,还有很多合规的风险,比如对于商用不是太友好。如果作为科研去用没有问题,但放到商业市场,把它变成模型去推广,就会有各种各样的障碍,比如不允许训练模型的分发,最后模型作为产品的分发都有相应的限制。
因此,对于AI领域数据集的合规,是业界越来越重要的命题。当前LF AI & DATA基金会OpenDataology方案,能够保证企业和科研机构的AI数据是可信的,包括涉及元数据的生成、数据版权许可证的生成、数据和隐私安全的保障、可信的运营和审计等。有了OpenDataology这个项目,可以不用担心数据集产生各种各样的问题,它会比人工审核更加有效率、更加稳妥。
我们现在看到AI从服务器从云侧开始发扬光大,但在端侧,尤其是在智能车崛起的时代,对未来AI的框架包括AI产品,一定会产生大量的“端边云”协同的需求。所以要求在模型上要自适应的生成,在模型从云到边到端的时候,能够有自动剪裁或者模型轻量化、小型化的处理。同时,除了端侧的推理之外,还要有一些轻量的学习和训练能力。可以私人定制的模型和更细微的超轻量级的框架,同时也在不断开发出来。
整个开源的趋势,多样化算力快速地指数级发展,数据领域到了数据发达时代。随着这些基础模型、大模型、预训练模型大行其道,AI领域模型的开源会是重要的趋势。因为模型有大量的价值有待发掘,可以被共享出来。
整个AI开源的趋势和AI框架的互操作性以及芯片生态的兼容性都在不断增强,AI的北向应用包括行业场景整合也在不断增强。同时,要降低AI开发者以及算法工程师的门槛,最后实现人人皆是AI工程师、面向未来的智能时代。
最后,数据集的开放是长期的趋势,越来越多的业界可用的数据集开源开放出来。就像开源一样,对商业更加友好的数据集以合规的形式慢慢开放出来。同时,类似于OpenDataology保障数据集安全合规自动化工具,也会是重要的趋势。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。