赞
踩
编者按:近年来, 随着大模型在NLP领域横扫各种大数据磅单取得巨大成功之后,大数据加大模型成为了AI领域建模的标准范式。搜索、广告、推荐的建模也不例外,动辄千亿参数,上T大小的模型成为各大预估场景的标配,大模型能力也已经成为各大科技公司军备竞赛的焦点。
在广告场景,大模型由于使用了更多的模型参数,利用更多的训练数据,模型具备了更强的记忆能力和泛化能力,为广告效果向上提升打开了更大的空间。但是大模型在训练过程中所需要的资源也是成倍的增长,存储以及计算上的压力对机器学习平台都是巨大的挑战。同时平台能够支撑的试验数量直接影响算法迭代效率,如何用更小的成本,提供更多的试验资源,是平台努力的重点方向。而在去年,腾讯广告成功研发训练出两个千亿参数大模型,“混元AI大模型”与“广告大模型”,并将其应用于在最新一次的腾讯广告系统升级中,切实帮助广告主提升效果天花板。这一切都离不开底层太极机器学习平台的助力。
除了提供强大的基建支持,腾讯太极机器学习平台还持续探索降本增效方案,在广告离线训练场景利用混合部署资源大大降低了资源成本,每天为腾讯广告提供50W核心低成本混合部署资源,帮助腾讯广告离线模型训练资源成本降低30%,同时通过一系列优化手段使得混部资源稳定性和正常资源持平。本文作者来自腾讯TEG数据平台部,为大家详细解读“太极“平台混部资源配置的技术思考。
1. 太极机器学习平台介绍
太极机器学习平台,致力于让用户更加聚焦业务AI问题解决和应用,一站式的解决算法工程师在AI应用过程中特征处理,模型训练,模型服务等工程问题。目前支持公司内广告,搜索,游戏,腾讯会议,腾讯云等重点业务。
太极广告平台是太极为腾讯广告系统设计的集模型训练和在线推理的高性能机器学习平台,平台具备万亿参数模型的训练和推理能力。目前该平台支持腾讯广告召回,粗排,精排数十个模型训练和在线推理;同时太极平台提供一站式特征注册,样本补录,模型训练,模型评估以及上线试验的能力,极大提升了开发者效率。
● 训练平台:目前模型训练支持CPU和GPU两种训练模式,利用自研高效算子,混合精度训练,3D并行等技术,训练速度和业界开源系统相比提升1个量级。
● 推理框架:太极自研的HCF(Heterogeneous Computing Framework) 异构计算框架,通过硬件层,编译层和软件层联合优化,提供极致性能优化。
2. 成本优化具体实现
2.1 整体方案介绍
随着太极平台的不断发展,任务数和任务类型日益增多,资源需求也随之增多。为了降本增效,太极平台一方面提升平台性能,提升训练速度;另一方面,我们也寻找更加廉价的资源,以满足不断增长的资源需求。
峰峦——腾讯公司内部云原生大数据平台,利用云原生技术,对公司整个大数据架构进行升级。为满足大数据业务持续增长的资源需求,峰峦引入混部资源,在满足资源需求的同时,又可极大降低资源成本。峰峦针对不同场景下的混部资源,提供了一系列的解决方案,把不稳定的混部资源变成对业务透明的稳定资源。峰峦混部能力支持3类混部资源:
● 复用在线空闲资源。在线资源因波峰波谷现象、资源使用预估过高和集群资源碎片等原因,导致集群资源利用率不高,有大量的空闲资源。峰峦挖掘这部分临时空闲资源,来运行大数据任务,目前已在在线广告、存储、社交娱乐和游戏等场景混部。
● 离线资源弹性借出。大数据平台有些任务也具有潮汐现象,在白天大数据集群资源使用率低的时候,峰峦支持把部分资源临时弹性借出,待大数据集群高峰到来之前,再拿回这部分资源。这种场景非常适合解决节假日和大促期间在线任务临时需要大量资源问题,峰峦当前已支持春节和618等重大节假日。
● 复用算力资源。算力资源是以低优CVM方式挖掘云母机的空闲资源,所谓低优CVM是指在云母机上启动具有更低CPU优先级的CVM虚拟机,该虚拟机可实时被其他的虚拟机抢占资源。峰峦基于底层算力提供的资源信息,在调度、过载保护、算力迁移等方面做了大量的优化,目前已有百万核的大数据任务在算力资源上稳定运行。
同时,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。