赞
踩
报告缘起:AI 趋势明确,大模型为关键环节
全球 AI 产业发展趋势明确,波动中前行。自 1956 年约翰·麦卡锡首次提出“人工 智能”的概念以来,全球人工智能产业逐渐进入学术研究和产业实操并进的阶段。尽管 在算力性能、数据量、硬件成本等多重因素影响下,人工智能产业经历了“三起两落” 的螺旋式发展,但全球人工智能发展的趋势仍然明确,通用人工智能(AGI)仍然是人工 智能行业发展的主线。
ChatGPT 加速推进 AI 产业发展,需求爆发倒逼供给创新。ChatGPT 在全球范围内 快速传播,在短时间内完成了对企业和用户的市场教育,需求端的爆发驱动着供给端加 速创新,加快推动全球 AI 产业发展进程。IDC 预测,2026 年全球 AI 市场规模有望达 3082.8 亿美元,2023-2026 年 CAGR 约 26.7%。而 AI 作为下一代全球科技竞速的重要 领域,我国从顶层设计到科技企业均积极参与,有望进一步带动国内 AI 产业发展。IDC 预测,2026 年,我国 AI 市场规模有望达 264.4 亿美元,2023-2026 年 CAGR 约 21.5%。
政策重点支持,人工智能有望维持高景气。人工智能作为展现大国国际竞争力的重 要领域,我国在顶层设计方面始终重视对人工智能产业发展的鼓励和引导,在关键技术 投入、人才培养、人工智能赋能实体经济、基本伦理要求等方面均推出相关政策。政策 积极支持下,我国人工智能行业有望维持高景气。
9 月 1 日,网信办发布第二批境内深度合成服务算法备案信息,百度文心大模型、抖 音云雀大模型、京东言犀大模型、腾讯混元助手大模型等 110 款深度合成服务算法通过 备案。随着国产大模型陆续向公众开放服务,有望加速产品落地进程及模型迭代飞轮, 并驱动 AI 的商业化变现。
产业结构:大模型是重要一环,AI 时代的入口之争。从 AI 产业结构来看,大模型是 连接底层算力和上层应用的重要一环,成熟的大模型能力和生态是真正实现通用人工智 能和未来应用端繁荣的基础,拥有更强计算和推理能力、更高通用性的大模型企业有望 把握 AI 时代的流量入口和话语权。
竞争态势:格局明晰尚需时间,看好互联网巨头领 先优势
发展阶段:国内大模型百家争鸣,格局明晰尚需时间
全球:中美领先发展,但行业格局或将相对独立。从全球范围来看,中美在大模型 领域引领全球发展。其中,基于在算法模型研发上的领先优势,美国大模型数量居全球 首位,根据中国科学技术信息研究所、科技部新一代人工智能发展研究中心联合发布的 《中国人工智能大模型地图研究报告》,截至 2023 年 5 月,美国已发布 100 个参数规模 10 亿以上的大模型。中国亦积极跟进全球大模型发展趋势,自 2021 年以来加速产出, 如 2021 年 6 月北京智源人工智能研究院发布 1.75 万亿参数量的悟道 2.0、2021 年 11 月 阿里 M6 大模型参数量达 10 万亿等。截至 2023 年 5 月,我国已发布 79 个大模型,在全 球范围占据先发优势。但考虑到数据安全、隐私合规以及科技监管等因素,我们认为中 美的大模型市场有望形成相对独立的行业格局。
海外:OpenAI 及谷歌双龙头+Meta 开源追赶+垂类特色厂商的格局已较为清晰。从 海外大模型格局来看,目前已经形成较为清晰的双龙头领先+Meta 开源追赶+垂类繁荣的 格局。同时,基于通用大模型能力已相对成熟可用,其上的应用生态已逐渐繁荣。 得益于对先进算法模型的集成以及较早的产品化,OpenAI 不仅展现了 GPT 在 人机对话中的超预期表现,同时基于 GPT 的应用生态也已逐渐繁荣,微软数款 产品(Bing、Windows 操作系统、Office、浏览器、Power Platform 等)、代码 托管平台 GitHub、AI 营销创意公司 Jasper 等均已接入 GPT。 谷 歌 在 人 工 智 能 领 域 持 续 投 入 , 其 提 出 的 IeNet 卷 积 神 经 网 络 模 型 、 Transformer 语言架构、BERT 大语言模型等均对全球人工智能产业产生重要推 动。但由于公司团队变动及更谨慎的产品化落地的态度,谷歌前期尚未大规模 推出面向 C 端的 AI 产品。在 ChatGPT 快速流行的带动下,谷歌亦推出聊天机 器人 Bard 及 PaLM2,并将接入谷歌的协作与生产力工具 Workspace 以及与 Spotify、沃尔玛、Uber Eats 等外部应用融合。 Meta 通过开源方式快速追赶,7 月发布最新开源大模型 LLaMA 2,使用 2 万亿 tokens 训练,上下文长度翻倍,实现了更强大的表现能力和更广泛的应用场景。 此外,Anthropic、Cohere、Hugging Face 等基于各自的垂类特色和定制化服 务也在海外 AI 市场中扮演着重要角色。
国内:大模型投入如火如荼,格局明晰仍需时间。ChatGPT 获得良好用户反响并在 全球范围引发关注以来,中国头部科技企业(阿里、百度、腾讯、华为、字节等)、新兴 创业公司(百川智能、MiniMax 等)、传统 AI 企业(科大讯飞、商汤科技等)以及高校研 究院(复旦大学、中科院等)亦加速大模型领域投入。当前国内大模型仍处研发和迭代 的早期阶段,各个大模型的性能差异及易用性仍在市场检验的过程当中,我们预计国内 大模型领域竞争格局的明晰仍需一定时间。
竞争要素:技术投入、核心人才和应用场景构成核心壁垒
技术投入、核心人才和应用场景构成核心壁垒。我们认为,大模型是一个重资源禀 赋、高进入门槛的赛道,其对算法模型的有效性、高质量的数据、算力的支撑能力均有 极高要求,模型的优化迭代亦有赖于资金和人才的持续投入。此外,大模型的实际落地 和行业应用能力也是市场检验的重要标准。
模型架构:理论创新与工程实践有效分离,加速 AI 技术创新效率。2017 年 transformer 模型的出现,以及引入的自注意力机制,推动 AI 在语言类问题(NLP 等)上 取得快速进展的同时,亦先后扩展至图像生成、音视频生成、计算机视觉等领域,并逐 步成为众多 AI 算法的底层基础。各类算法输入数据规模、模型参数的指数级增长,以及 模型 scale 带来更优的计算精度、问题泛化求解能力等,推动大模型快速普及,据 Percy Liang、Rishi Bommasani、李飞飞等人在 2021 年论文《On the Opportunities and Risk of Foundation Models》中提及,具有“表达能力、可扩展性、多模态性、记忆容量和组 合性”特征的大模型将成为学术研究的核心方向,并成为 AI 产业的底层基础模型 (foundation model)。ChatGPT 的成功表明,算法架构+工程实践的有效结合,经过 fine-tuning 之后的基础模型部署于各类应用场景,将能显著改善 AI 技术研发效率、产业 化门槛。我们判断,基础模型理论创新将逐步回归至科研机构、科技巨头等,而众多算 法企业的差异化能力将进一步向工程实践领域迁移,并成为下游应用场景厂商紧密的合 作伙伴。
大模型训练对算力及资金均提出极高要求。我们对 ChatGPT 单次训练成本进行测算, 假定预训练单次,且训练过程中没有出现错误时的成本。实际情形中,考虑到训练过程 中出现工程类错误的可能性,实际成本会高于我们计算的理想情况成本。假设参数量为 175B、训练数据 500B Tokens 的情况下,根据《Scaling Laws for Neural Language Models》(Jared Kaplan, Sam McCandlish, Tom Henighan 等)的分析,在使用 256 个 英伟达 HGX A100 服务器(包含 2048 个 A100 GPU 卡)的情况下,模型 FLOPs Utilization(MFU)假设为 Megatron-LM 的 51.04%,我们推测单次训练时长约为 30.7 天,对应约 151 万 GPU 小时。假设训练使用成本价约为 1 美元/GPU 小时的情况下,耗 费服务器端成本约为 151 万美元。
数据:高质量的数据,能够为模型自身的学习、迭代,以及对推理能力的训练带来 正向影响。按照当前 LLM 的技术范式,数据集主要应用于预训练和模型调优阶段。预训 练阶段需要大规模、多类别、高质量的训练数据,在模型调优阶段,垂类小数据集、提 示词工程同样重要。近年来全球数据量呈现爆发式增长,据 IDC 统计,2019 年全球产生 的数据量为 41ZB,过去十年的 CAGR 接近 50%,IDC 预计到 2025 年全球数据量或高达 175ZB,2019-2025 年仍将维持近 30%的复合增速,其中超过 80%的数据都将是处理难 度较大的文本、图像、音视频等非结构化数据。从 Bert 开始到 GPT-3 再到谷歌的 PALM, 网络中的公开语言数据源已经在被尽可能地利用(论坛、新闻、维基百科等),但模型优 化仍需更多数据,这要求模型开发商有能力接触到优质私有数据来源,从而才能在模型 的数据底层取得差异性优势。
场景:应用落地时检验模型能力的重要标准。一方面,通用大模型与行业场景结合, 在带来生产力和效率的实质性提升后才能真正实现普及。另一方面,大模型结合行业应 用落地后,更多的真实用户反馈也有望加速大模型的优化迭代,从而不断强化模型能力。
格局推演:有望形成互联网巨头主导+垂类厂商共存的格局
历史积累:互联网巨头具备先发优势,芯片层、模型层、应用层布局完备。互联网 巨头在 AI 领域投入已久,百度 2014 年即成立人工智能实验室,阿里、腾讯、字节跳动 也于 2016 年成立人工智能实验室,此后各家在芯片层、模型层及应用层持续探索,不断 完善布局,在研发、模型、数据、应用等方面已积累显著的先发优势。
算法模型:追随海外技术进展,研发突破是竞争关键。从技术路线来看,国内大模 型主要追随海外进展。基于谷歌在人工智能领域更高的影响力以及 BERT 开源代码,前 期我国企业在大模型领域的探索更多参考 BERT 路线。随着 ChatGPT 在人机对话领域的 超预期表现验证了高质量数据+反馈激励(大模型预训练+小数据微调)的有效性,国内 大模型技术路线也逐渐向 GPT 方向收敛。我们认为,尽管模型架构设计的不同对特定任 务上的表现有一定影响,但国内大模型厂商在技术上基本同源,从而导致了现阶段较为 相似的模型能力,而下一阶段对于 GPT 方向的研发突破将是竞争关键。
算力:互联网厂商在算力资源上具备优势。随着模型参数和复杂度的提升,大模型 对算力的需求也在加速增长。当前国内已发布的大模型中,参数规模达到千亿及以上的 厂商仅为 10 个左右,一定程度上体现出各厂商之间算力能力的差异。我们认为,互联网 厂商在算力资源上具备相对优势,主要原因系:1)互联网企业业务布局多元,用户基数 庞大,海量数据高频更新,使得互联网企业自身对算力有大量需求,阿里、字节、百度、 腾讯等头部互联网企业是全球芯片及服务器领域的重要客户。2)阿里云、百度云、腾讯 云等为国内头部云厂商,在云计算中心、AI 算力平台、超算中心等新型高性能计算基础 设施上布局领先,如阿里云推出 PAI 灵骏智算服务,提供覆盖 AI 开发全流程的平台和分 布式异构计算优化能力;腾讯云发布新一代 HCC(High-Performance Computing Cluster)高性能计算集群,算力性能较前代提升高达 3 倍。
数据:优质开源中文数据集稀缺,自有数据及处理能力构成模型训练壁垒。得益于 开源共创的互联网生态,海外已有大量优质、结构化的开源数据库,文本来源既包含严 谨的学术写作、百科知识,也包含文学作品、新闻媒体、社交网站、流行内容等,更加 丰富的语料数据能够提高模型在不同情景下的对话能力。而受制于搭建数据集较高的成 本以及尚未成熟的开源生态,国内开源数据集在数据规模和语料质量上相比海外仍有较 大差距,数据来源较为单一,且更新频率较低,从而导致模型的训练效果受限。因此, 大模型厂商的自有数据和处理能力构成模型训练效果差异化的核心。受益于移动互联网 时代积累的海量用户、应用和数据,互联网企业在自有数据上更具特色化和独占性,叠 加更强大的数据处理能力,从而能够通过数据优势带来模型训练成果的差异。例如,阿 里在研发 M6 时,构建了最大的中文多模态预训练数据集 M6-Corpus,包含超过 1.9TB 图像和 292GB 文本,涵盖百科全书、网页爬虫、问答、论坛、产品说明等数据来源,并 设计了完善的清洁程序以确保数据质量。百度 ERNIE 模型的训练数据集中也运用了大量 百度百科、百度搜索以及百度知识图谱等生态内数据,通过更高质量的数据保障了模型 的训练效果。
资源投入:互联网厂商重研发投入,资金及人才实力领先。大模型的训练需要较高 且可持续的研发投入,头部互联网企业兼具高资本密度和高人才密度优势。资金方面, 2022 年,腾讯/阿里/百度研发费用达 614/567/233 亿元,明显领先于行业相关公司。人 才方面,根据脉脉人才库,在计算机视觉、深度学习、语音识别、自然语言处理 4 个人 工智能重要的技术方向上,互联网大厂是人才储备最丰富的企业。持续的高研发投入以 及极高的人才密度有望驱动头部互联网企业保持在 AI 及大模型领域的领先优势。
场景:业务丰富多元,互联网厂商天然具备落地实践场景。考虑到数据隐私和安全 合规,初期通用大模型在行业落地时可能会面临一定的信任问题,从而导致较高的获客 成本。而头部互联网平台基于自身在电商、搜索、游戏、金融等领域丰富的业务积累, 天然具备落地实践场景。在提高产品效率的同时,也有望率先形成示范效应,从而有助 于外部客户和应用的拓展。
格局推演:互联网巨头有望保持领先地位,中小厂商或将面临路径选择。综合上述 分析,结合行业竞争要素,并参考海外当前竞争格局,我们认为,国内大模型赛道有望 形成与海外相似的产业趋势,兼具技术、资金、人才和场景优势的头部互联网企业有望 成为大模型领域的重要玩家,而中小厂商或将面临路径选择。一方面,中小厂商可以利 用自身在垂类场景和数据层面积累的优势,成为聚焦垂类的核心特色玩家;另一方面, 基于训练和用户调用带来的算力需求的激增,考虑到资源优势和经济性,中小厂商或将 寻求云厂商的支持和合作。
互联网大模型对比:短看技术突破,长看生态壁垒
历史积累:百度、阿里技术积累深厚,大模型已实现良好性能
本章节,我们对国内头部互联网企业在 AI 领域的发展现状、自研布局以及对外投资 进行了梳理。从时间线上看,国内头部互联网企业阿里、百度、腾讯、字节均在 2014- 2016 年间成立人工智能实验室,但此后在发展思路和框架布局上各有侧重。我们认为, 阿里、百度更偏重对底层技术的投入,兼具先发优势和完备自研布局,目前推出的大模 型产品已实现良好的中文对话能力。腾讯在 AI 领域亦积极跟进,并于 2022 年 12 月公布 万亿中文 NLP 预训练模型混元的最新进展;同时,腾讯在大模型领域也保持了开放的投 资风格,与企业共同成长。字节此前在 AI 领域的投入更多与自身业务相关,如音视频识 别、内容创作、AR/VR 等,算法能力突出,但在大模型领域的积累则相对薄弱,推出火 山方舟,通过 MaaS 的方式积极参与行业竞争。
阿里巴巴:AI 自研投入已久,数据、算法及算力积累上已占据领先身位。作为国内 头部科技企业,阿里在人工智能等前沿科技方向上早有投入,2014 年即成立了数据科学 与技术研究院,2016 年成立人工智能实验室,2017 年成立达摩院,后续成立 AI 芯片自 研团队作为算力支持,并陆续发布了中文社区最大规模预训练语言模型 PLUG 和多模态 大模型 M6。同时,阿里在电商、智慧城市等业务中积极运用深度学习等智能化技术,通 过技术进步提升业务效率。我们认为,基于在数据、算法和算力上的沉淀,阿里在国内 人工智能和大模型竞速中已占据领先身位。
对外投资:广泛布局,打造 AI 生态圈实现共赢。除自研投入外,阿里也在 AI 核心 产业环节积极进行对外投资,在芯片领域投资寒武纪、深鉴科技等,机器视觉和深度学 习领域投资商汤科技、旷视科技等,应用领域投资小鹏、小 i 机器人等。通过 AI 领域的 广泛布局,阿里巴巴有望与相关企业形成协同效应和战略合作,进一步实现效率提升和 业务拓展,通过打造 AI 生态圈的方式实现共赢。
技术架构:IaaS+PaaS+MaaS 重新定义 AI 架构。面向新的 AI 时代,阿里云重新定 义了 IaaS+PaaS+MaaS 的三层技术体系。IaaS 层,阿里云专门为 AI 设计了云基础设施, 包括异构计算、高效高速的网络存储等。同时,在训练方面提供灵骏计算集群,在推理 方面提供弹性计算 ECS 集群,通过更加稳定高效的基础设施为 AI 发展提供坚实的基础。 PaaS 层,阿里云基于长期的技术和软件能力积累提供了丰富的大数据及机器学习产品, 从数据清洗、特征工程训练等方面助力模型训练。此外,阿里云于 2022 年 11 月推出魔 搭社区,提出 MaaS(model as a service),通过打造大模型开源社区和生态共建的方式 加速模型发展及迭代。
百度:深耕十年,全栈自研构筑核心壁垒。基于自身业务需求和浓厚的工程师文化, 百度始终重视对 AI 的投入,2011 年在硅谷开设办公室,并在 2017 年提出“All in AI”的 公司战略。从 AI 技术体系来看,百度是国内少数在 AI 领域全栈自研布局的公司之一,在 芯片层、框架层、模型层和应用层均有自研投入,已形成一定的产业生态和影响力。
对外投资:长期投入,加速布局大模型领域。百度长期关注人工智能赛道,坚持布 局前沿科技领域,在芯片、大模型、AI+制药、应用等领域均有投资。2023 年以来,随 着 ChatGPT 引发新一轮 AI 产业热潮,百度亦加速在 AIGC 及多模态大模型领域的布局, 先后投资 text-to-video 生成技术与社区的初创企业 Morph Studio、人工智能公司西湖心 辰及多模态大模型公司生数科技,有望进一步完善公司的 AI 生态布局并加快协同发展。
芯片+框架+模型+应用全栈自研布局,强化内部反馈迭代。百度在 AI 领域全栈自研 布局,芯片层,百度已有两代自研昆仑芯实现量产,预计第三代昆仑芯将于 2024 年初实 现规模上市;框架层,百度飞桨经过 6 年开发并逐渐成熟后,成为中国首个开源开放、 功能完备的端到端深度学习平台,截至 2022 年 11 月,百度飞桨已有 535 万开发者,服 务了 20 万家企事业单位,创建了 67 万个模型;模型层,百度最早于 2019 年推出文心大 模型并不断迭代,并于 2021 年发布百亿级大模型文心 ERNIE 3.0 和千亿级大模型文心ERNIE 3.0 Titan;应用层,百度推出生成式 AI 对话产品文心一言以及面向企业客户的文 心千帆大模型平台,积极通过实践场景验证大模型能力。我们认为,百度全栈自研布局 的优势在于各层之间的反馈有望进一步驱动技术能力的优化,提升迭代效率。
腾讯:重视 AI 发展,内生+外延双轮并驱。腾讯 2016 年成立 AI Lab,并在 2017 年 提出“make AI everywhere”的战略愿景,2018 年建立以人工智能与前沿科技为基础的 两大实验室矩阵。根据腾讯 RoboticsX 实验室微信公众号,截至 2022 年底,腾讯 AI Lab 已累计在 AAAI、CVPR、ACL、ICML、NeurIPS 等国际顶级 AI 学术会议或期刊发表超 780 篇文章,并持续推动 AI 与机器人、数字内容生成、生命科学、医疗医药、游戏等行 业应用的结合。对外投资方面,根据 IT 桔子,截至 2022 年底,腾讯共投资 53 家国内 AI 公司,多次投资 AI 算力芯片公司燧原科技、企业级认知智能服务平台明略科技等,并在 2023 年投资深言科技、MiniMax、光年之外等大模型企业。在大模型领域,腾讯仍然保 持以投资见长的风格,有望与企业共享成长果实。
腾讯:从 MaaS 切入大模型赛道,算力支持及应用工具完备。6 月 19 日,腾讯云首 次正式公布行业大模型研发进展,并发布面向 B 端客户的腾讯云 MaaS 服务解决方案。 有别于阿里、百度等直接发布大模型产品,腾讯率先以 MaaS 的方式切入大模型赛道, 在金融、文旅、政务、传媒、教育等 10 大行业提供超 50 个解决方案,以更懂行业、更 易落地的方式满足企业需求。同时,腾讯 TI 平台提供数据标注、训练、测试、评估、部 署等全套工具,技术底座提供 HCC 高性能计算集群、向量数据库等算力支撑,以保障行 业大模型的运行效果。
字节跳动:2023 年成立大模型团队,搜索、智创两部门牵头。字节跳动于 2016 年 成立人工智能实验室,将其定位为公司内部的研究所和技术服务商,为平台输出的海量 内容提供 AI 技术支持。此前公司 AI 研究成果主要与业务相结合,研发重点集中在机器翻 译、智能语音、视频图像和多模态等领域,而大模型相关积累相对薄弱。根据 36 氪,字 节跳动语言大模型团队在今年组建,由搜索部门牵头;图片大模型团队则由产品研发与 工程架构部下属的智能创作团队牵头。
字节跳动:从 MaaS 切入,应用先行丰富行业经验。6 月 28 日,火山引擎发布大模 型服务平台火山方舟,面向企业提供模型精调、评测、推理等全方位平台服务,已接入 百川智能、复旦大学 MOSS、澜舟科技、MiniMax、智谱 AI 等多家 AI 科技公司及科研院 所的大模型,并已对外启动邀测。我们认为,由于前期在大模型领域的积累相对薄弱, 通过 MaaS 的方式切入大模型赛道是更具可行性的方式。一方面,通过 MaaS 模式为需 求方提供丰富多元、灵活选择、具有性价比的大模型使用方式;另一方面,行业应用的 落地和行业经验的积累也有望反哺字节自身在大模型领域的积累和迭代。
核心人才:关注人才密度与粘性,兼顾基础研发与业务落地
在人才方面,我们认为,互联网大厂的差异化竞争主要体现在两方面:1)人才密度 和人才质量;2)人才粘性,而保障人才粘性的关键在于组织架构与激励机制的设置。由 于人工智能的研发工作具有一定的前瞻研究和学术影响力的属性,而在互联网行业整体 提质增效背景下,对于研发产出和业务落地也有一定需求,因此如何平衡基础研究和业 务落地之间的关系、通过合理的组织体系保障人才粘性是互联网大厂在架构设置的关键。
阿里巴巴:达摩院坚持前沿探索,高密度 AI 人才引领发展。组织架构上,阿里在人 工智能领域的研究主要由达摩院主导。达摩院于 2017 年成立,致力于探索科技未知,以 人类愿景为驱动力,开展基础科学和创新性技术研究。达摩院主要覆盖机器智能、数据 计算、机器人、金融科技、X 实验室(量子计算)5 大领域,其中机器智能布局最为突出, 下辖语音实验室、视觉实验室、语言技术实验室、决策智能实验室、城市大脑实验室 5 大实验室。 人员构成上,阿里大模型研发由阿里云智能 CTO 周靖人带队,其在大数据平台及人 工智能领域经验丰富,并在 M6 系列模型研发中发挥了重要作用。黄非和赵德丽分别担任 语言技术实验室和基础视觉实验室负责人,分别领导 NLP 和 CV 领域的研究,黄非曾在 自然语言处理和人工智能顶级会议和期刊发表文章 40 多篇,获得美国专利 10 多项,并 在 IBM 和 Facebook 从事自然语言处理的研发和技术管理等职位;赵德丽曾在微软亚洲 研究院的视觉计算组和香港中文大学的多媒体实验室工作六年,从事机器视觉和机器学 习的算法研究工作。此外,阿里达摩院团队广纳贤才,原贝壳技术副总裁兼首席科学家 叶杰平、前京东数科 AI 实验室首席科学家薄列峰等相继于 2022 年加入阿里,有望进一 步推动阿里在大模型及 AI 领域的探索。
百度:技术攻坚与产品承接并重,CTO 王海峰统领 AI 研发。根据 36 氪,百度目前 文心一言团队主要由 TPG(技术中台事业群)和 MEG(移动生态事业群)两大部门协同, 前者负责技术攻坚,后者进行搜索、内容产品承接。团队人员上,百度 CTO 王海峰自 2018 年底开始统领 TG 和 AIG,总体负责百度人工智能技术和算法、算力、数据、安全 等基础技术的研发,并担任文心一言项目总指挥。
腾讯:多团队并行,基础研究与业务应用并重。腾讯内部多个团队均从事人工智能 相关研发工作,其中,AI Lab 和 Robotics X 实验室作为双基础研究部门,均隶属于技术 工程事业部。AI Lab 专注计算机视觉、语音识别、自然语言处理和机器学习等方向的基 础研究,和内容、社交、游戏等方向的应用探索,截至 2022 年底,已有 100 多位顶尖研 究科学家及 300 多位应用工程师。同时,云与智慧产业事业群设立腾讯优图实验室,专 注于图像技术的深入研究及应用探索;微信事业部内部孵化微信 AI 团队。2023 年 2 月, 针对类 ChatGPT 对话式产品,腾讯成立混元助手项目组,腾讯首席科学家张正友担任项 目 owner,俞栋、王迪、刘田分别担任 PM,并已有至少 7 位组长和 7 位 Sponsor。
字节跳动:年初快速集结团队,多部门协作开发。根据 36 氪,字节跳动语言大模型 团队在今年组建,由搜索部门牵头;图片大模型团队则由产品研发与工程架构部下属的 智能创作团队牵头。朱文佳是字节大模型的第一负责人,其在算法和搜索业务上经验深 厚。此外,Data-AML 负责人项亮、人工智能实验室总监李航、前阿里 M6 核心技术人员 杨红霞等也均为团队重要成员。
技术投入:百度、阿里暂居第一梯队,腾讯、字节加速追赶,关注迭代效 率
本章节,我们从技术角度对国内头部互联网大模型进行对比研究。前期基于相似的 算法路线、架构设计和训练语料,互联网大模型尚未展现出显著的能力差异。根据 IDC, 阿里的通义千问和百度的文心一言在算法模型、通用能力、创新能力等方面取得相近评 分。展望后续,我们认为,互联网大模型在技术上的竞争要点在于:1)对 GPT 关键技 术的研发突破;2)相似性能下的成本和效率优势;3)大规模、高质量训练预料的搭建。
算法模型:此前各家大模型架构及路线主要参考 BERT、LLaMA 等开源模型, 技术路线基本同源,但在模型设计和训练方式上各有侧重,如阿里更强调多模态任务能力及效率,百度聚焦在 NLP 能力上的提升,腾讯兼顾模型规模增长与效率提升。随着 ChatGPT 验证了 GPT 路线及高质量数据+反馈激励的有效性,正驱动着大模型的技术路 线向 GPT 方向收敛。我们认为,后续互联网大厂在算法模型上差异化竞争的核心在于: 1)对 GPT 关键技术的研发突破;2)若在模型研发上较难取得突破,则通过模型设计和 训练方法的优化实现相似性能下更优的成本和效率的厂商有望具备更大的竞争优势。
算力:随着大模型参数和数据量的飙升带来对算力需求的快速增长,互联网大 厂均加速在 AI 算力平台、超算中心等新型计算基础设施上的建设。基于互联网大厂充足 的算力储备及在新型计算基础设施上的积极建设,我们认为短期算力或将不会成为限制 互联网大模型发展的瓶颈,中长期具备芯片自研能力的公司有望具备更强的竞争优势。
数据:高质量数据源及数据处理能力是差异化竞争的核心。阿里在训练 M6、百度在训练 ERNIE 3.0 时,均自行搭建了 TB 级别的大规模数据库,数据来源中包含了大量 生态内独有数据,并设计了完善的清洁程序以确保数据质量,有效提升了模型的训练效 果和中文语境的对话表现。
算法模型:底层路线逐渐向 GPT 方向收敛,模型设计和训练方式各有侧重
阿里巴巴:统一学习范式+模块化设计,通义打造多模态统一底座。达摩院认为一个 全能模型应当具备三重属性:①任务无关(Task-Agnostic):不针对具体下游任务,而是 更具通用性的模型。②模态无关(Modality-Agnostic):对所有任务建立统一的输入和输 出形式,从而实现不同模态的处理能力。③任务足够丰富(Task Comprehensiveness): 需要设计足够丰富的任务种类,以确保模型的稳健性。为了打造多模态全任务的通用性 大模型,达摩院通过统一学习范式和模块化设计的方式,使 M6-OFA 可处理超 30 种跨模 态任务,同时能够灵活调用模块从而实现高效率和高性能。
M6-OFA 实 现 架 构 、 模 态 和 任 务 统 一 。 ① 架 构 统 一 : M6-OFA 使 用 统 一 的 Transformer Encoder-Decoder+ResNet Blocks 的架构进行预训练和微调,从而不需要针 对不同任务设计特定的模型层。②模态统一:M6-OFA 将 NLP、CV 和多模态任务统一到 同一个框架和训练范式,从而可以完成对不同任务的输出。③任务统一:M6-OFA 将涉 及多模态和单模态的所有任务都统一建模成序列到序列(seq2seq)任务,模型可以同时 学习多任务,从而让模型通过一次预训练即可获得文本生成、图像生成、跨模态理解等 多种能力。
借鉴人脑运行机制,模块化设计提升多模态任务能力及效率。模块化设计借鉴人脑 的运行机制,即人类大脑中拥有储备各种知识和处理不同模态信息的能力模块,人类思 考时只调用与特定任务相关的模块,从而保证了人脑的高速运行。模块化大模型采用模 块化 Transformer Encoder-Decoder 结构来统一多模态的理解和生成,同时切分出不同 的独立模块,包括基础层、通用层(如不同模态)、任务层到功能性模块(如推理),每 个模块间相互解耦,各司其职,从而通过灵活拆拨不同模块进行微调或者预训练实现大 模型的轻量化和任务水平的提升。
通义-M6:模型快速迭代,2 年投入推出全球最大预训练模型。达摩院于 2020 年 1 月正式启动中文多模态预训练模型 M6 项目,此后模型快速迭代升级,2021 年 3 月/5 月 模型参数规模达千亿/万亿。2021 年 11 月模型参数规模达 10 万亿,成为全球最大预训练 模型,通过阿里云 PAI 自研 Whale 框架上搭建 MoE 模型,叠加更细粒度的 CPU offload 技术实现仅利用 512 张 GPU 即完成 10 万亿规模参数的训练;同时,M6 团队设计了 Pseudo-to-Real(共享解除)机制,大幅提升训练速度。2022 年 9 月,达摩院发布通义 大模型系列,打造业界首个 AI 统一底座,并宣布相关核心模型向全球开发者开源开放。
通义-AliceMind:深度语言模型体系持续丰富,NLP(自然语言处理)能力突出。 历经三年研发,目前深度语言模型体系 AliceMind 已包含通用语言模型 StructBERT、多 语言 VECO、生成式 PALM、多模态 StructVBERT、结构化 StructuralLM、知识驱动 LatticeBERT、机器阅读理解 UED、超大模型 PLUG 等。AliceMind 先后登顶 GLUE、 CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO 等自然语言处理领域权威 榜单,在多语言、生成式、多模态、结构化、知识驱动等领域能力突出。
通义-视觉大模型:专注 CV(计算机视觉)领域的应用落地。通义视觉大模型基于 文本到视觉生成和特征到视觉生成两个基础模型,通过视频处理、视觉问答、视觉算术、 知识抽取等中层通用算法的支持,实现在电商、城市大脑、工业视觉等领域的产业应用。 例如,通义-视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用,并在文生 图以及交通和自动驾驶领域发挥作用。
模型生态:MaaS 先行者,魔搭社区快速迭代。阿里云于 2022 年 11 月提出 MaaS, 并推出开源社区魔搭,一方面,通过提供以模型为核心要素的一站式使用平台,降低 AI 使用门槛;另一方面,通过开源方式吸引更多开发者共创共建,加速模型开发迭代。魔 搭社区经过数月时间快速发展,根据阿里巴巴财报,截至 2023 年 7 月,魔搭社区模型总 数已超 1000 个,累计模型下载量超 4500 万次。同时,通义大模型系列中语言大模型 AliceMind-PLUG、多模态理解与生成统一模型 AliceMind-mPLUG、多模态统一底座模型 M6-OFA 和超大模型落地关键技术 S4 框架等核心模型及能力也已在魔搭社区中面向全球 开发者开源。我们认为,魔搭作为国内 MaaS 的先行者,开源社区带来的更快的迭代速 度和更丰富的应用反馈有望使得魔搭在中长期模型生态建设中占得先机。
百度:ERNIE 系列模型不断迭代,持续突破 NLP 任务表现
ERNIE 1.0:加入短语和实体掩码策略,强化模型知识推理能力。基于 BERT 模型, ERNIE 1.0 主要在掩码策略上进行了改进。有别于 BERT 采用基础 mask 类型,ERNIE 1.0 新增了短语 mask 和实体 mask 类型,从而使得模型表现出更强的语法学习和知识推 理能力。在五类自然语言处理任务(自然语言推理、语义相似性、命名实体识别、情感 分析和检索问答)上,ERNIE 表现优于基准模型 BERT。同时,语料库方面,预训练除 使用中文维基百科外,还使用了大量百度百科、百度新闻和百度贴吧的数据,更丰富的 训练数据提升了模型对中文语意的理解能力。此外,ERNIE 在 DLM(对话语言模型)任 务上对查询-响应对话结构进行建模,通过多回合对话帮助 ERNIE 学习对话中的隐式关系, 从而增强了模型学习的语义表示能力。
ERNIE 2.0:改进多任务学习方式,实现多个 NLP 下游任务 SOTA 表现。多任务学 习通常有同时学习和顺序学习两种方式,同时学习模式无法确保任务的不断增加能够带 来模型效果的持续提升,而顺序学习模式下随着不同任务的学习、模型参数的递进,可 能会使得模型陷入遗忘。ERNIE 2.0 采用了交替式的多任务学习方式,当出现新任务时, 使用先前学习的参数来初始化模型,并同时训练新引入的任务和原始任务,从而有效缓解了遗忘现象并提高了模型训练的有效性。在多任务学习方式的优化下,ERNIE 2.0 在多 个 NLP 下游任务上取得了中英文 SOTA(state of the arts)表现。
ERNIE 3.0:引入大规模知识图谱,提升模型的知识记忆和推理能力。由于已有大模 型使用纯文本进行训练,而没有引入知识,且传统的自回归微调方式在解决下游语言理 解任务时表现出相对较弱的性能。因此,ERNIE 3.0 提出了用于大规模知识增强模型预训 练的统一框架,通过引入 4TB 语料和 10B 参数的大规模知识图谱,在大规模无监督语料 库上对模型进行预训练。同时,ERNIE 3.0 采用了单词感知、结构感知和知识感知等多种 预训练任务,从而使得模型能够更有效地学习不同层次的知识。上述改进下,ERNIE 3.0 在情感分析、观点抽取、阅读理解、文本摘要、对话生成、数字运算等 54 个中文 NLP 任务中实现 SOTA 表现。
ERNIE 3.0 Titan:强化可控及可信,实现中文预训练最强表现。ERNIE 3.0 Titan 在 保留了 ERNIE 3.0 海量无监督文本与大规模知识图谱的平行预训练算法的基础上,进一 步设计了可控和可信学习算法,通过自监督的对抗损失和可控的语言建模损失,达到不 同类型的零样本生成能力并显著提升了生成结果的可信度,并实现文本分类、信息抽取、 阅读理解等 68 个 NLP 任务的 SOTA 表现。
多模态大模型布局完善,文心系列模型满足多元需求。百度除了在 NLP 领域持续升 级 ERNIE 系列模型外,在视觉、跨模态和生物计算领域也积极布局。视觉领域,基于领 先的视觉技术,利用海量图像、视频等数据,提供视觉基础模型以及视觉任务定制与应 用能力;跨模态领域,基于知识增强的跨模态语义理解关键技术,实现跨模态检索、图 文生成、图片文档的信息抽取等应用的快速搭建;生物计算领域,将生物领域研究对象的特性融入模型,构建面向化合物分子、蛋白分子的生物计算领域预训练模型。基于多 模态大模型的完善布局,使得文心系列模型能够满足各行业在不同领域的多元需求。
腾讯:关注效率提升,混元成为国内首个低成本、可落地的 NLP 万亿大模型。混元 AI 大模型集 CV、NLP 和多模态理解能力于一体,2022 年 4 月首次对外发布研发进展, 在 MSR-VTT、MSVD 等五大权威数据集榜单中登顶。2022 年 12 月,混元在热启动和课 程学习、MoE 路由算法、模型结构、训练加速等方面研究优化,大幅降低了万亿大模型 的训练成本,成为国内首个低成本、可落地的 NLP 万亿大模型,并再次登顶自然语言理 解任务榜单 CLUE。
热启动和课程学习:混元首先在小规模模型上训练收敛,然后将小模型的知识 迁移到大模型,逐步增加模型的规模,从而使得当模型规模指数型增长时,只 需要较少的迭代即可达到较好的水平。
MoE 路由算法:有别于 Dense 模型在训练过程中激活所有 FFN 和 SA 层的参 数,从而导致较高的训练成本,MoE 通过引入路由,只激活部分 FFN 的参数参 与计算,从而能够实现训练成本的节约。同时,在规模相同的情况下,使用 MoE 的大模型能够具有更高的训练和推理效率。
注意力权重复制:混元研究团队发现注意力权重在不同层之间的差异不大,因 此改进了注意力权重设置方式。在每一层随机有 p 的概率重新计算注意力权重, 1-p 的概率复用上一层的注意力权重。通过实验发现,当 p 设置为 50%,模型 效果无损,注意力权重总的时间复杂度降低 50%,大模型预训练提速约 20%。
词向量路由机制:引入额外的词向量用于专家的路由,把路由和注意力层输出 解耦,相同词的路由向量相同,在保证路由稳定性的同时加速了收敛。
算力:积极布局新型高性能计算基础设施,保障算力支撑
阿里巴巴:PAI×灵骏智算支持 10 万亿参数大模型研发。基于灵骏智算,阿里云推 出了 PAI×灵骏智算服务,提供覆盖 AI 开发全流程的平台和分布式异构计算优化能力, 能够支撑 10 万亿参数规模的大型模型训练,单个训练任务可达到万卡级别规模,训练性 能提高近 10 倍,千卡规模的线性扩展效率达 92%,能够深度支持通用大型模型的研发。
百度:百度百舸构建 AI 原生的智能计算基础设施,同等配置下实现性能领先。2022 年 9 月,百度云升级发布百度百舸 2.0,在 AI 计算、AI 存储、AI 容器等模块上进行了能 力增强和功能丰富,并全新发布 AI 加速套件。①AI 计算:发布了弹性 RDMA 网卡,其 和 VPC 网络进行了融合,使得用户的使用成本更低,且通信延时相比传统 TCP 网络降 低了 2-3 倍。②AI 存储:发布并行文件存储 PFS 的裸金属版本,支持 IB 网络,可将计算 对数据的访问延迟降低至百 us 级别。同时,对象存储 BOS 新增了原生层级 namespace, 可以将元数据访问速度提升 4 倍以上。③AI 容器:在业界率先推出双引擎 GPU 容器虚拟 化方案,可以满足各类场景的要求,提升 GPU 资源利用率。④AI 加速套件:通过存训推 一体化的方式,对数据的读取和查询、训练、推理进行加速,进一步提升 AI 作业速度。 在 MLPerf Trainning v2.0 的榜单中,百度百舸 2.0 和百度飞桨联合提交的 BERT Large 模型 GPU 训练性能结果在同等 GPU 配置下排名第一,比其他结果快 5%-11%。
腾讯:最新 HCC 高性能计算集群算力提升 3 倍,4 天完成万亿大模型训练。2023 年 4 月,腾讯云推出全新 HCC 高性能计算集群,采用最新一代腾讯云星星海自研服务器, 搭载了 NVIDIA H800 Tensor Core GPU,可提供业界目前最高的 3.2T 超高互联带宽。相较 1.6T 网络,集群整体算力提升 20%,将万亿参数的混元 NLP 大模型的训练时间缩短 至 4 天,大幅提升了大模型的训练效率。
字节跳动:自研 DPU 等系列云产品,提高大模型训练效率。4 月 18 日,火山引擎 发布自研 DPU 等系列云产品,并推出智能推荐-高速训练引擎,采取软硬一体、细粒度算 子优化以及分布式训练和推理,以实现更快的训练速度和更低的训练成本。根据火山引 擎微信公众号:
软硬一体化:针对关键场景的超大模型,火山引擎智能推荐-高速训练引擎提供 全 GPU 方案,可以支持 100GB-10TB 的超大模型的高速训练,综合 ROI 是 CPU 的 5 倍; 覆盖更多场景的模型,提供了 GPU+CPU 混训方案,综合 ROI 是 CPU 的 2 倍。
细粒度算子优化:针对搜索、推荐和营销场景,优化细粒度算子,使得在模型 推理的过程中有更好的性能表现。在训练时,通过算子融合并精细调优,性能提升 20%; 在推理时,通过算子优化,性能提升 40%。
分布式训练和推理:智能推荐-高速训练引擎为了保障系统的稳定性,支持训练 和推理的全方位容错,当某一个节点故障时,可以快速恢复;支持分布式推理,包括多 分片、多副本,从而保证线上服务的高可用。 抖音、今日头条等基于火山引擎高速训练引擎的业务,模型训练时间的速度相较以 往快 10 倍-25 倍,综合成本降低 25%-67%。
数据:高质量数据源及数据处理能力是差异化竞争核心。由于优质中文开源数据库 较少、数据规模较小,因此高质量数据源及数据处理能力是竞争差异化的核心。阿里在 训练 M6、百度在 ERNIE 3.0 时,均自行搭建了 TB 级别的大规模数据库,数据来源中包 含了大量生态内独有数据,并设计了完善的清洁程序以确保数据质量,有效提升了模型 的训练效果和中文语境的对话表现。
资金:互联网大厂均重视研发投入,百度 10 年投入 AI 超千亿元。互联网大厂均具 备稳健的现金流并重视研发投入,在资金实力上不存在显著差异,但在行业整体降本增效趋势下,或将更加注重研发的投入效率及产出。2022 年,腾讯/阿里/百度研发费用分 别为 614/567/233 亿元,研发费用率分别为 11.1%/6.5%/18.9%,并多次强调在人工智能 领域的研发投入。根据阿里财报,FY2022,阿里巴巴技术投入超过 1200 亿元人民币; 近三年,阿里巴巴专利投入中超 60%集中于云计算、人工智能、芯片等硬核科技领域。 根据李彦宏在 2022年世界人工智能大会上的发言,百度在人工智能领域 10 年间累计投入超过 1000 亿元,其中核心研发投入在核心收入占比连续多个季度超过 20%。同时,百 度也持续在免费算力开放、AI 人才培养等方面提供资金和资源。
应用场景:内部核心业务率先落地,积极探索行业场景
自身核心业务及 B 端率先应用,关注实际落地进展。从场景上看,各公司均率先将 大模型能力用于自身核心业务,在提升业务效率的同时,也打造了行业应用的标杆案例。 外部应用上,由于大模型提质增效的能力天然契合 B 端需求,因此目前 B 端落地进展相 对较快。我们认为,AI 在数字化程度较高或人力密集型行业有望形成更大的应用空间。 根据 IDC 数据,我国专业服务、政府、制造业、银行、通信有望成为 AI 应用市场规模最 大的行业,2026 年市场规模有望达 77.4/36.9/28.0/20.6/18.5 亿美元。行业覆盖上,各公 司展现出较强的自身业务属性及此前产业互联网领域的资源积累。参考各公司在云计算 市场的客户构成,我们认为随着行业应用-数据-模型的不断迭代反馈,各公司在大模型领 域也有望形成特定行业赛道的相对优势。 C 端,尽管目前尚未有爆款应用的出现,但参考移动互联网时代应用类公司实现了更 高的市值增长,我们认为未来 AI 对 C 端应用的颠覆式创新也有望带来产业价值的爆发。
阿里巴巴:产品全系接入,有望率先形成示范效应。AI 带来生产效率的显著提升, 目前在文字归纳与生成、创意性内容生成、代码开发等领域已得到广泛应用。同时,大 模型结合行业应用落地后,更多的真实用户反馈也有望加速大模型的优化迭代,从而强 化良性循环。根据 2023 阿里云峰会,阿里所有产品未来都将接入大模型全面升级,在提 高产品效率的同时,也有望率先形成示范效应,从而有助于外部客户和应用的拓展。
办公:钉钉全面接入通义千问,实现生产智能化。4 月,钉钉总裁叶军在 2023 春季 钉峰会宣布,钉钉全面接入阿里巴巴通义千问大模型。用户在使用钉钉时,可以通过斜 杠“/”调用通义大模型能力,实现对群聊工作讨论、推文创建、视频会议、活动策划、 资料管理等场景协作效率的大幅提升。我们认为,办公场景中较多的文本工作及内容创 意天然适合通过 AI 的方式进行生产力改造。
办公:通义听悟全新上线,全面提升音视频向图文转化效率。6 月 1 日,阿里云发布 聚焦音视频的 AI 新品通义听悟,成为国内首个开放公测的大模型应用产品。通义听悟接 入了通义千问大模型的理解与摘要能力,帮助用户在工作学习中完成对音视频内容的转 写、检索、摘要和整理。同时,通义听悟也可嵌入各类音视频平台,形成实时字幕、智 能摘要等,如钉钉的“钉闪记”便集成了通义听悟,未来通义听悟也有望接入夸克 APP、 阿里云盘等端口提供服务。
电商:用户端优化购物体验,商家端提升经营效率。由于电商链路中存在大量人机 交互、内容生成等场景,因此适合与 AI 结合实现早期应用落地。阿里电商业务与 AI 能力 结合后,用户端,将通过智能推荐、辅助决策等方式优化消费者购物体验,降低决策成 本;商家端,既能通过 AI 辅助创意生成降低营销成本,也能通过智能客服等方式降低运 营成本,同时 AI 带来更精准的用户洞察也有望提升商家的经营产出,从而打开未来潜在 的货币化空间;平台端,消费者及商家更好的使用体验及经营成果有望提升用户及商家 对平台的心智和粘性,从而进一步保障平台的市场份额。
智能终端:通义千问赋能天猫精灵,有望成为一站式家庭生活服务入口。2023 阿里 云峰会展示了通义千问在智能居家方面带来的体验提升,接入通义千问的天猫精灵 Demo 版本也展现了其理解用户需求成功下单外卖以及语言能力和推理能力的增强。我们认为, 未来天猫精灵在通义千问赋能下,并接入淘宝、天猫、饿了么、飞猪等应用后,有望优 化交互体验,成为一站式家庭生活服务入口。
通义千问积极与企业展开合作,共创企业专属大模型满足个性化需求。除阿里系内 部应用将全面接入大模型外,通义千问也将与各行业合作生成行业专属和企业专属大模 型,满足企业个性化需求并提升业务效率。目前,阿里云已和多家企业在大模型相关场 景展开技术合作探索和共创,首批合作企业包括 OPPO 安迪斯智能云、太平洋保险、吉 利汽车、奇瑞新能源、波司登等。根据 2023 阿里云峰会,阿里发布通义千问两周后,超 20 万家企业申请接入。
百度:内部广泛应用,有望重塑主业搜索体验。目前,文心大模型已大规模应用于 搜索、信息流、小度智能屏、百度地图等百度内部的各类产品,显著提升了产品智能化 体验。尤其对于百度的搜索主业来讲,传统搜索模式下存在信息冗余繁杂、用户筛选成 本较高等痛点,结合 AI 能力后,百度搜索以对话方式生成回答,并列示资料来源,有望 大幅优化用户搜索体验,从而进一步带来用户规模及使用频率的提升。
行业应用:深入实体经济,行业生态不断丰富。在通用文心大模型的基础之上,结 合行业数据和知识图谱,文心已累计发布电力、燃气、金融、航天、传媒、城市、影视、 制造、社科等领域的 11 个行业大模型,不断通过大模型赋能千行百业的数字化和智能化 进程。文心一言发布首日,即与 5 家企业完成首批签约,与 650 家企业启动签约,超 6.5 万企业申请调用,产业化进程领先。
文心一格:AI 辅助艺术和创意生成,有望释放 AIGC 生产力。文心一格是百度基于 文心大模型技术推出的 AI 艺术和创意辅助平台,可以根据用户输入的文本描述,自动生 成画作,同时可以根据用户需求进行编辑和二次创作。截至 2023 年 5 月底,文心一格官 网的注册用户数已超 600 万,参与文心一格测试的生态伙伴超过 900 家。随着文心一格 模型能力的不断优化和迭代,有望大幅提升游戏原画、广告营销素材、工业设计及建筑 设计等领域的生产效率,在实现内容创作能力突破的同时,也能促进公司的降本增效。
腾讯:多核心业务落地,行业大模型推动生态共建
游戏:降低制作成本,丰富玩家体验。AI 技术在游戏全链路中均可充分运用,一方 面,AI 可以辅助游戏制作、运用及周边生态开发,降低游戏创造门槛和成本,同时提升游戏品质;另一方面,AI 也能拓展更加多元的游戏品类,如围棋、麻将等棋牌类,足球 等体育类,以及多人在线战术竞技(MOBA)、第一人称射击(FPS)等复杂策略类游戏, 不断丰富玩家体验。
广告:提升理解和运算能力,兼顾起量、成本和稳定性。混元 AI 大模型帮助腾讯广 告系统实现升级,在广告内容理解、广告智能创作、广告智能审核和广告指纹系统 4 个 方面分别打造解决方案,大幅提升了系统在广告内容理解、行业特征挖掘、文案创意生 成等方面的能力,在助力广告主达成起量、成本和稳定性三大效果指标、实现生意增
字节跳动:8 月发布大模型对话产品“豆包”,加速研发进展。8 月,字节发布大模 型对话类产品豆包、超爱聊天的小宁、英语学习助手、英文写作润色、全能写作助手, 已具备基本的问答对话、智能创作等能力。根据 SuperCLUE 测评,目前豆包在不同维度 的能力上差异较大,在逻辑推理及计算方面具有较强表现,而在代码、上下文对话等方 面仍存在一定短板。但考虑到字节于年初才成立大模型团队,我们认为目前整体进展已 较为超预期,后续随着持续研发有望进一步加快迭代进展。
商业模式:MaaS 开创商业化新模式,云厂商具备增 长高确定性
他山之石:北美云巨头的商业化启示
API 调用:提供闭源模型的使用权限。在三大云厂商中,微软与谷歌选择模型闭源, 以出售模型 API 的形式获取收益。目前微软以及 OpenAI 模型的商业化已经开启,根据路 透社数据,OpenAI 在 2022 年的收入预计只有约 8000 万美元;根据研究机构 PitchBook 的数据,OpenAI 今年有望产生 2 亿美元的收入,且预计到 2024 年,OpenAI 收入可能达 到 10 亿美元。谷歌虽然亦以 API 的形式出售 PaLM 系列模型,但从目前看,产品仍处在 预览阶段,并未全面开启商业化。但谷歌云亦提供了语音文字转换等场景的 API 能力, 同时根据 I/O 大会的披露,公司预计未来数月内将提供模型的可用版本。对亚马逊而言, 其推出了模型调用平台 Amazon Bedrock,提供第三方模型的调用。
部署和微调:根据模型训练时长或数据量进行商业化。一个模型完整的生命周期包 括训练模型、将模型部署到端点、使用模型进行预测(推理)等。云厂商产品包括谷歌 Vetrex AI、OpenAI 等。从商业模式看,谷歌提供按时长计价的模式,提供训练、部署、 推理等功能,其中训练成本显著高于推理。而 OpenAI 选择按照数据量计价,但针对不同程度的训练,提供四档价位。我们认为,当前的定价,仍源自较高的计算成本,后续来 看随着计算成本以及基础设施的完善,定价将更为具体。
细分场景:微软 Copilot、谷歌 Duet AI 等。Copilot 是微软生成式的 AI 助手,此前 已被应用在类似于 Github 等代码开发场景。根据微软在其技术文档中的表示,Copilot 采 用了 OpenAI 推出的 GPT-4 模型,并且进一步优化了输出内容的可靠性以及使用数据的 隐私问题,为企业级应用做好了准备。AI 功能被直接集成到 Word、Excel、PowerPoint、 Outlook 和 Teams 等应用中,用户可以提出问题并提示 AI 撰写草稿、制作演示文稿、编 辑电子邮件、制作演示文稿、总结会议等。Copilot 将以两种方式与 Microsoft 365 客户合 作:1)嵌入到 Word、Excel、PowerPoint、Outlook、Teams 等;2)提供聊天功能。商 务聊天功能覆盖 LLM、Microsoft 365 应用和客户的日历、电子邮件、聊天、文档、会议 和联系人工作等,通过自然语言提示(如“告诉我的团队我们如何更新产品策略”),商 务聊天将根据上午的会议、电子邮件和聊天线程生成状态更新。而谷歌亦依靠原有的 Worksapce 业务,将生成式 AI 引入 Workspace 推出适用于 Google Workspace 的 Duet AI 让用户能够与 AI 协作,进行邮件撰写、图文生成 PPT、表格汇总等。
商业模式:MaaS 开创商业化新模式,云厂商具备增长高确定性
IaaS:短期来看,云厂商计算类产品需求有望快速增长。短期来看,我们认为 AI 的 快速发展对算力需求的拉升具有较高确定性,云厂商计算类产品有望率先受益,阿里云、 百度云、腾讯云均推出搭载英伟达 A100 的 GPU 云服务器,能够显著提升 AI 训练性能和 高性能计算速度,通过高性能基础设施支撑国内 AI 产业的蓬勃发展。
PaaS:打造标准化云产品,输出通用 AI 能力。对于机器学习平台、视觉智能、自 然语言处理和智能语音等通用型 AI 能力,云厂商已将其打造成标准化产品进行售卖,收 费模式主要为按量收费或资源包模式。如机器学习平台 PAI 提供的模型训练 DLC 产品, 通过专有资源组提供充足算力,既可以通过资源包(59 元/100 CU*H)付费,也可以按 量付费(205.7 元/月起),从而提供灵活的调用方式。
MaaS:中长期看,MaaS 有望成为模型层最主要的商业模式。由于大型 AI 模型通 常需要强大的计算能力和资源,很多企业和个人难以承担部署和运维成本。MaaS 通过云服务平台将复杂的技术问题进行封装,使用户无需关注底层实现,可以轻松地访问和使 用 AI 模型。MaaS 有望成为模型层最主要的商业模式,包含订阅与 API 按需收费两种模 式。订阅模式下,用户根据使用需求支付周期性费用,享受一定时期内的模型服务。API 按需收费模式下,用户根据实际调用 API 的次数或数据量支付费用,这样用户可以根据 业务量灵活调整支出。
AI 大模型训练环节的海量参数和数据库以及用户调用次数的快速增长,带来了算力 需求的激增。考虑到资源优势及经济性,云厂商有望成为 AI 算力需求的主要承载方。根 据 IDC,2022 年,我国 AI 公有云市场规模达 79.7 亿元,同比增长 80.6%。其中,百度 智能云、阿里云、华为云、腾讯云份额领先,行业 CR4 达 93.7%。2022 年,百度/阿里/ 腾讯 AI 公有云收入分别为 23.0/21.8/14.9 亿元,同比增长 69.7%/71.2%/124.6%,对应 整体收入贡献达 13.0%/2.8%/4.7%。国内互联网云厂商在基础设施、技术架构、自研芯 片、模型算法等方面已积累深厚优势,有望受益于国内 AI 产业蓬勃发展带来的训练及应 用环节的增量算力需求。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。