当前位置:   article > 正文

浅谈大模型私有化+精调:面向垂直行业与特定场景之需_10亿 tokens 语料大概占多少存储量

10亿 tokens 语料大概占多少存储量

01、引言

无论是近期自己在研习大模型及其应用的过程中,还是在与相关专业人士交流时,关于大模型私有化部署的讨论并不少见:

图片

在OpenAI的官方文档中,也将微调(fine-tuning)列作其文本生成模型的能力之一:

图片

在使用百度千帆大模型平台的过程中,也能看到大模型调优的服务/功能支持:

图片

想来对于这个话题,屏幕前的你也一样,或多或少有所好奇,又或者正在实践之中。

私有化部署大模型产品以及进行行业版/企业版微调或领域知识增强,本质上是为了实现两个主要目标:

  • 增强数据安全与隐私保护: 在当前的数字化时代,数据安全和隐私保护已成为企业面临的重要挑战之一。私有化部署允许企业将AI模型部署在内部服务器或私有云环境中,这样可以更好地控制数据的存储和处理,避免敏感信息泄露给第三方或公有云服务提供商。此外,私有化部署还使企业能够遵守地域性数据保护法规。
  • 提高模型的针对性和有效性:通用AI模型虽然在多个领域都有不错的表现,但往往缺乏对特定行业或企业独特需求的深入理解。通过行业版或企业版的微调/领域知识增强,可以将模型训练或调整以适应特定的业务场景和数据特点,如使用特定行业的术语、处理行业特有的交互模式等。这种针对性的优化可以显著提高模型在特定应用场景中的性能,如提高客服对话系统在银行或保险领域的准确率和用户满意度。

微调 OpenAI 文本生成模型可以使它们更好地用于特定应用程序,但这需要仔细投入时间和精力。

OpenAI

那么,什么是大模型的私有化/精调?怎样进行大模型的私有化/精调?

本文试图给出初步的答案,请随我一同探索一番。

02、基本概念

什么是大模型私有化

大模型私有化(Model Private Deployment)指的是将预训练的大型人工智能模型(如GPT、BERT等)部署到企业自己的硬件环境或私有云平台上。与公有云服务或模型即服务(Model-as-a-Service)相比,私有化部署能够给企业带来更高级别的数据安全性和自主控制能力。

在这里插入图片描述

图片

对数据隐私和安全要求高、需要自主控制AI模型运行环境的企业而言,或者在特定地理位置因法律法规限制不能使用公有云服务的情况下,这种需求是确实存在的。而且可能是中国的“国情”如此,想要私有化的诉求相比欧美的企业的比例会更高(纯个人看法)。

出于数据隐私和安全的考虑,特别是对于那些处理敏感信息的企业,如金融、医疗等行业。私有化部署确保了数据在本地处理,避免了数据传输过程中的泄露风险,同时也帮助企业符合严格的数据保护法规。

这个概念和将企业的应用部署在公有云、私有云还是本地机房上,其实道理是一样的。所以我想不需要过多赘述。

什么是大模型精调

类似于GPT、GLM、Gemini、Llama、Baichuan、ERNIE等这样的通用的预训练大模型,通常基于广泛的公开文献和网络信息训练,缺乏许多专业知识和行业数据的积累,因此在行业针对性和精准度方面存在不足。

图片

图片

精调(也称微调,Model Fine-Tuning)是在预训练的大型AI模型基础上,通过在特定任务上的进一步训练,使模型更好地适应特定的应用场景或数据集。这个过程涉及使用较小的、特定领域的数据集对模型进行再训练,以调整模型参数,提高其在特定任务上的表现。

通过精调,可以将通用的大模型优化为更适合企业特定需求的模型,如提高在特定行业术语理解、客户交流中的准确率等。这不仅能够提升用户体验,还能够提高业务效率和效果。

精调适用于几乎所有希望利用AI模型解决具体业务问题的场景,包括但不限于客户服务自动化、内容推荐、情感分析、文档自动审核等。


既然说到这里,就插个题外话,一些要自研和训练通用大模型的厂商不仅缺乏专业知识和行业数据,也缺通用知识,所以“卖数据”也是一门好生意:

国内开始大模型竞赛开始后,八友科技是第一波获益的企业之一,很多客户找到梁斌购买数据进行模型训练。“大模型客户购买我们的数据就是用硬盘拷贝数据,对我们来说成本很低,原来堆在仓库不值钱的东西一下子就值钱了。”梁斌透露,公司目前已经有50多个大模型客户,客单价约在50万至60万元,目前公司大模型数据销售收入已接近3000万元。

模型从通用到定制化

回归到大模型精调本身,如果从适用性的角度出发,我自己理解可以按照“通用大模型→行业大模型→企业大模型”这样分层递进的方式来划分,以反映模型应用的深度和专业化程度的增加:

通用大模型(General-Purpose Models):这一层次保持不变,指的是具有广泛通用能力的模型,适用于多种基础任务和领域。我们所熟知的GPT无疑就是其中的佼佼者:

图片

行业大模型(Industry-Specific Models)或领域专用大模型(Domain-Specific Models):针对医疗、法律或教育等特定领域,又或者银行业、保险业、制造业、电商业等特定行业的需求,进行更深入的优化和定制,这一层次的模型相比通用大模型,具有更专业的行业/领域知识,能够更好地处理领域内的特定问题,理解并应对行业特有的挑战和需求。比如:

  • BioBERT:一个专为生物医学文献搜索和分析优化的BERT模型。通过在生物医学文献上的进一步训练,BioBERT能够更准确地理解医学术语和概念,广泛应用于疾病关联分析、药物发现等研究领域。

图片

  • chatLaw:一个开源法律大型语言模型,使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据

图片

  • 子曰大模型:网易有道团队推出的、定位为“场景为先”的教育垂类大模型,能够作为基座模型支持诸多下游任务,向所有下游场景提供语义理解、知识表达等基础能力,针对教育场景下的各个应用,包括口语教练、家庭老师、文档助手等都做了相应的适配和增强。

图片

  • EcomGPT:达摩院NLP团队为了提高模型在电商任务上的泛化能力推出的电商领域大模型,其构造了一个电商指令数据集EcomInstruct,包括122个训练任务/数据集(held-in),约150万条数据,以及12个评估任务(held-out):

图片

图片

  • BloombergGPT:一个 500 亿参数的语言模型,支持金融行业内的各种任务。彭博的研究人员开创了一种混合训练法,将金融数据与通用数据集结合起来训练模型,以达到在金融基准上取得最佳结果,同时在通用LLM基准上也保持足够的竞争力。例如它可以用于生成 Bloomberg 查询语言:

图片

  • LightGPT:恒生电子自主研发的专为金融领域打造的大语言模型。基于海量金融数据训练而来,对金融相关问题的理解比通用大模型更有优势。2000亿中文tokens的加持,80+中文金融任务的打磨,金融多领域应用场景覆盖,更专业;学习中国的金融法律法规,更符合中国金融市场的监管要求;支持私有化/云部署,支持API调用,推理端仅需一机两卡部署:

图片

  • 盘古金融大模型:华为在盘古大模型100多种模型能力之上,通过五类金融数据注入千亿级的金融Tokens;与金融机构和伙伴共创,沉淀上千个细分场景模板;融合了100多个行业标准、规范等行业知识库;构建了数据、模型、内容等全流程安全合规能力,打造面向金融行业的大模型。

图片

  • 轩辕大模型:百度(度小满团队)在1760亿参数的BLOOM大模型基础上训练而来,在金融名词理解、金融市场评论、金融数据分析和金融新闻理解等任务上,效果相较于通用大模型大幅提升,表现出明显的金融领域优势。为了提升轩辕大模型对金融领域问题的理解能力,度小满将自身业务中积累的金融领域的千亿tokens的中文预训练数据集用来训练模型。该数据集涵盖了金融研报、股票、基金、银行、保险等各个方向的专业知识。

图片

  • CodeGeeX和GitHub Copilot:编程领域的专用大模型产品,专注于编程和软件开发领域,它们理解和生成代码,帮助开发者提高效率和创新,在特定任务(如代码生成、补全、优化)上有着很强的专业化能力:

图片

图片

图:阿里智能客服机器人的应用场景简介

图片

图:数势科技的智能分析支持的一些数据分析任务场景

关于垂直领域微调的更多(中文)大模型,可参见:

https://github.com/HqWu-HITCS/Awesome-Chinese-LLM

图片

企业定制大模型(Enterprise-Customized Models):在通用大模型或行业大模型的基础上,针对特定企业的独特需求、数据、业务流程进行定制化开发和训练。这种模型最大程度地适配企业的具体情况,提供个性化的解决方案。

  • Salesforce Einstein:是一个集成在Salesforce平台上的AI助手,专门为销售预测、客户意向分析等CRM(客户关系管理)相关任务定制。它通过分析历史销售数据和客户互动记录,帮助销售团队优化销售策略,提高销售效率。

图片

  • 加我智能:有赞Jarvis和AI大模型结合之后深度迭代的新产品,与有赞的系统高度集成,基于过往多年积累的各种报告、手册、实践,沉淀为庞大的知识库,对大模型进行资料“喂养”和“训练”,拥有了「启发式对话」,可以为B端商家提供系统使用帮助、私域营销、自动配置活动等支持。

图片

当然,有些在实际的产品应用层面,未必直接采用了微调,也可以通过prompt、Agent等方式来实现,但这不影响我们理解相关概念。这也是OpenAI官方指南所建议的:

我们建议首先尝试通过提示工程、提示链接(将复杂任务分解为多个提示)和函数调用来获得良好的结果,关键原因是:

  • 在许多任务中,我们的模型最初可能表现不佳,但可以通过正确的提示来改进结果 - 因此可能不需要微调
  • 迭代提示和其他策略的反馈循环比使用微调迭代要快得多,后者需要创建数据集和运行训练作业
  • 在仍然需要微调的情况下,初始提示工程工作不会浪费 - 在微调数据中使用良好的提示(或将提示链/工具使用与微调相结合)时,我们通常会看到最佳结果

通过这种更为详细的划分方式,我们能够更精确地识别和满足不同层次的AI模型应用需求,同时也为企业提供了从通用到个性化,不同深度和广度的AI解决方案选择路径。

图片

如果将“京小智”中的知识库类型与我们这里讨论的大模型分类方式进行类比的话,想来有助于大家理解:

  • “通用知识库”:大部分商家的咨询场景中都会遇到的知识,由京小智官方定义的知识点应答范围和问法,商家只需编辑答案即可——通用大模型
  • “行业知识库”:根据行业划分的每个行业的通用高频知识,由京小智官方定义的知识点应答范围和问法,商家只需要编辑答案即可 ——行业大模型
  • “自定义知识库”:商家可自定义行业知识库或通用知识库未覆盖、无法命中或识别错误的知识,需要由商家定义每个知识点的应答范围、问法以及答案——企业大模型

虽然本质上有所不同(知识库更接近于大模型RAG而非Fine-Tuning),但通过这种类比,我们可以看到,在AI大模型的应用和智能客服知识库的构建中,都采取了从通用到个性化的逐步深入的策略,这种分层递进的方法有助于在满足广泛需求的同时,也能针对特定的需求提供更专业、更精细的解决方案。

03、大模型精调/定制化的方式

几种大模型精调的方式

根据百度千帆大模型平台上的展示,可以看到支持Post-pretrain、SFT、RLHF这3种模型精调方式:

图片

(1)Post-pretrain:后预训练,即在模型预训练之后,针对特定任务或领域进行,在相关的数据集上进一步训练、微调模型,以提升模型在该任务上的表现。

图片(2)SFT:即Supervised Fine-Tuning,监督微调,一种在预训练之后进行的训练过程,它使用有标签的数据来调整模型的参数。SFT通常用于将预训练模型适配到特定的任务或领域。在SFT中,模型会学习如何根据给定的输入生成更符合人类预期的输出。这种方法可以显著提高模型在特定任务上的表现,但它依赖于高质量的有标签数据。

图片

(3)RLHF:即Reinforcement Learning from Human Feedback,强化学习来自人类反馈,一种利用人类反馈来指导模型学习的方法。

图片

它们各有特点,适用于不同的场景和需求:

图片

其他的更多方式

还有更多的方式,尽管没有在百度千帆大模型平台上有直接的体现,但也值得我们了解:

(4)Prompting / Prompt Engineering:通过设计合适的提示词,引导模型以特定的方式响应。这种方法不需要改变模型的权重,而是通过精心设计的输入来激发模型的期望输出。

优点:不需要额外的训练,节省了计算资源和时间。

缺点:需要对模型有深入的理解,才能设计出有效的提示。

适用场景:适合于那些资源有限,或者需要快速验证模型在特定任务上性能的场合。

(5)Few-Shot Learning / Zero-Shot Learning:少量样本或零样本学习,旨在使模型能够在极少甚至没有示例的情况下解决特定的任务。

优点:对标注数据的需求少,特别是在数据稀缺的场景中非常有用。

缺点:可能不如完全监督的方法准确,特别是在复杂任务上。

适用场景:适合于数据稀缺或者数据标注成本高昂的任务。

(6)Knowledge Distillation:知识蒸馏是一种将大模型(教师模型)的知识转移给小模型(学生模型)的技术。通过这种方式,小模型可以在保持较小规模的同时,尽可能地模仿大模型的表现。

优点:生成的小模型计算成本低,便于部署。

缺点:可能无法完全达到大模型的性能水平。

适用场景:适用于对模型大小和计算效率有严格要求的场景。

(7)Transfer Learning:迁移学习是一种利用在一项任务上学到的知识来解决另一项相关但不同任务的方法。虽然与SFT相似,但迁移学习强调从源任务到目标任务的知识迁移。

优点:可以加速学习过程,提高模型在目标任务上的性能。

缺点:需要确保源任务与目标任务之间有足够的相关性。

适用场景:适用于目标任务的数据较少,但可以找到与之相关的源任务拥有大量数据的场景。

(8)Adversarial Training:通过引入对抗样本来训练模型,以增强模型对输入数据的微小扰动的鲁棒性。

优点:提高模型的鲁棒性,减少对抗攻击的风险。

缺点:训练过程可能更复杂,计算成本高。

适用场景:适用于安全性要求高的应用场景,如金融欺诈检测、网络安全等。


大模型的微调和定制化正在被广泛探索和应用,诸位看官如有兴趣,不妨结合自己感兴趣的行业或领域深入研究、学习。图片

03、大模型精调/定制化的实现

基本步骤

进行大模型的微调和定制化是一个多步骤的过程,而且采用不同方法时会有差异。如果一定要做个通用的概括,关键的步骤应该有:

(1)需求分析:

确定微调或定制化的目标和需求。

明确模型需要解决的具体问题,如语言理解、图像识别、推荐系统等。

(2)数据准备:

收集和整理用于微调的数据集。对于特定任务或行业,可能需要相关领域的数据。

数据预处理,包括清洗、标注、划分训练/验证/测试集等。

(3)选择基础模型:

根据任务需求选择合适的预训练大模型作为起点。考虑模型的语言、规模、之前的训练数据等因素。

评估模型的通用性能,确定是否符合微调的基础需求。

(4)模型微调:

设计微调策略,包括学习率、训练周期、损失函数等设置。

在特定任务的数据集上训练模型,调整模型的权重以适应特定任务。

(5)性能评估:

使用验证集或测试集评估微调后模型的性能。

分析模型表现,识别任何过拟合或欠拟合的问题。

(6)迭代优化:

根据性能评估的结果,调整微调策略,可能包括调整训练参数、增加数据增强、改进数据预处理等。

迭代训练,直至模型性能达到预期目标。

(7)模型部署:

准备模型部署环境,可能包括服务器配置、云服务选择等。

部署模型到生产环境,确保模型的稳定运行和性能。

(8)监控与维护:

持续监控模型在实际应用中的表现,收集反馈。

定期维护和更新模型,以应对新的数据分布或业务需求变化。

(9)用户反馈循环:

收集用户反馈和业务指标,用于进一步优化模型。

考虑将用户反馈整合入未来的模型训练和迭代中。

以Post-pretrain为例

在此,我直接引用百度千帆大模型平台的指引文档(稍作精简和调整)来帮助大家理解具体怎么进行模型的精调:

流程大纲>>>

图片

(1)识别应用场景

希望能在大模型中注入领域知识,增强模型领域专业性,并且满足以下条件时,推荐使用Post-pretrain:

  • 有大量高质量(Billion级tokens)的行业预训练语料
  • 有少量指令集(千条数据),或有自主构建指令集的能力
  • 了解post-pretrain全流程

若仅有少量高质量语料或费用敏感用户,建议考虑知识库管理方法,学习领域知识。

一些可参考的垂类场景:

图片

在以上的垂类场景中,Post-pretrain能做到:

  • 提升领域专业性:垂类领域有其独特的专业术语、上下文和特定问题。利用这些领域语料进行 post-pretrain,可以使模型更好地理解和生成与该领域相关的内容
  • 提高模型性能:通过在相关领域的数据上进行Post-pretrain,模型可以更好地捕捉领域特定的语义和语境,提高在特定领域的性能和效果
  • 降低误解的风险:领域专业性的微调有助于降低模型对特定术语或上下文的误解,更好地确保模型输出的准确性

注意:特定领域的数据质量和多样性是关键因素,需要确保模型不会因为特定数据的过度拟合而失去泛化能力。

(2)数据准备

要在特定领域使用post-pretrain方法训练一个大模型,关键是准备与该领域相关的高质量语料。以下是一些关于语料的指导原则:

数据质量方面>>>

a.语义高质量:

  • 清洗和去重:通过数据清洗和去重,消除噪声、冗余、无关和潜在有害的数据,是pretrain/post-pretrain语料的一般要求

b.内容高质量:

  • 领域专业性数据: 包含领域内常见的专业术语和词汇,以确保模型能够正确理解和使用这些术语。例如,在金融领域,包括金融教材、公司公告、研究报告等;在医疗领域,包括临床文献、病历记录、药品说明书等
  • 多样性和广泛性:确保语料库涵盖特定领域内的各种场景、主题和任务。这有助于模型更全面地理解领域内的多样性
  • 合规性和隐私:确保数据的收集和使用符合法规和伦理标准。特别是在医疗领域,需要格外谨慎处理患者数据,并确保遵循相关隐私法规。

数据规模方面>>>

建议至少10亿 tokens 语料(大约等于13.3亿个汉字,得有非常深厚的积累了)。但post-pretrain所需的语料库量是一个复杂的问题,因为它受到多个因素的影响,包括任务的复杂性、领域的专业性、模型的规模等,因此在实际应用中,可以根据模型的表现调整语料规模。

在准备与领域相关的高质量语料,平台提供了全面、易用的工具链帮助用户快速构建高质量数据:

a. 预置数据集

预置数据集使用场景:

  • 若希望增强模型的通用能力,可在自有领域语料的基础上,结合实际需求添加平台预置通用预训练语料
  • 若希望增加模型的领域能力,可在自有领域语料的基础上,结合实际需求添加平台预置的领域预训练语料

图片

b.数据分析

对于用户的领域相关语料,平台提供了数据分析的功能,可以对文本数据进行分布统计和质量检查,输出领域语料的整体分布和质量情况。

图片

图片

c.数据清洗

在数据分析的过程中,如果发现一些低质量的文本,可以在数据清洗pipeline中选择对应的清洗算子,修复或者去除低质量的语料,提高数据质量。

图片

需要提醒的是,重复的数据对模型训练没有额外增益,甚至是有害的,而且复制的数据会耗费额外的计算资源,导致训练速度变慢,因此在准备数据的时候需要去除重复的数据。

(3)配置项

a.配置超参数

pretrain/post-pretrain阶段,Epoch默认为1。Epoch等价于数据重复的次数。目前的实验表明,post-pretrain阶段重复的数据对模型训练没有额外增益,甚至是有害的,而且复制的数据会耗费额外的计算资源,导致训练速度变慢,故平台默认值为1。

学习率(LearningRate)是在梯度下降的过程中更新权重时的超参数,学习率过高会导致模型难以收敛,并且会加快遗忘,同时增加训练的不稳定性。学习率过低则会导致模型收敛速度过慢,平台已给出默认推荐值,如果没有专业的调优经验,推荐使用默认值。

b.数据配置相关

关于混合训练:仅用单一领域数据进行模型训练,模型很容易出现灾难性遗忘现象,其他领域的能力出现下降。在领域训练过程中加入通用数据进行混合训练,在增强用户垂类场景能力的同时,保持其原本的通用能力。

使用建议:

  • 若用户仅需要使用指定垂类场景下的能力,可以直接进行训练。
  • 若用户需要模型保持通用能力的同时,提升垂类场景的能力,可以选择数据配比进行混合训练。

默认配比为1:5,即1份领域数据: 5份通用语料(百度专家在多个领域场景的验证,确认1:5的配比效果相对而言比较好)。

不同的场景以及不同的数据量的数据配比存在差异,建议先选择一个占比训练模型,根据模型效果调整配比,若通用能力弱,提升通用语料占比;若垂类领域能力弱,提升领域语料占比。

关于预置数据集信息:预置了100Billion tokens的通用语料,广泛地搜集了不同来源的各类中英文公开数据,包括书籍、网页、论文、代码、传统的NLP数据集等不同类型,并进行了深度清洗,保证了数据的多样性和高质量。

(4)训练结果优化

通过训练过程可视化观察Training loss的收敛曲线,成功的训练一般有明显的收敛过程。

图片

图(a)loss明显下降,训练收敛;

图片

图(b)loss有尖峰,但很快恢复,可不进行特别的干预,但需注意数据质量或者学习率;

图片

图(c)loss发散,训练未收敛,需着重检查数据质量和超参配置。

(5)后续应用与持续迭代

图片

  • 完成垂直领域Post-pretrain之后,可以进行benchmark测评,在测评集上对比Base模型的效果差异。
  • 领域Post-pretrain后进行通用SFT训练,提升模型对通用的指令理解和语言跟随能力。
  • 通用SFT后进行垂直领域SFT训练,提升模型在垂类领域中的指令理解和语言跟随能力。

更综合的实现方式

当然,在具体的工业实践上,并不会非此即彼地只采用一种方式,而是采用多种方式相结合,毕竟目标是在合理或可接受的投入前提下,取得还不错的效果。

在此,我还是直接引用之前看过的度小满轩辕金融大模型的介绍给大家做个简单的分享:

图片

图片

图片

图片

图片

图片

图片

图片

大模型精调的现实挑战

在微调和定制化AI大模型的过程中,面临着多种风险和挑战,例如:

(1)数据隐私和安全:使用敏感或个人识别信息(PII)需要特别小心,以避免数据泄露和滥用。

(2)数据质量和偏见:数据集中的偏见或错误会导致模型学习到错误或偏见的行为,进而影响决策和性能。需要确保数据的多样性和代表性,以及清洗数据以减少噪声和不准确信息。

(3)计算资源和成本:大模型的训练和微调需要大量的计算资源,这可能导致高昂的成本。需要合理规划资源,优化训练过程以减少不必要的开销。

(4)模型泛化能力:微调后的模型可能在训练数据上表现良好,但在未见过的新数据上表现不佳,即过拟合问题。需要通过合适的模型验证和测试方法,确保模型具有良好的泛化能力。

(5)技术和方法选择:选择不适合的微调方法或模型架构可能导致项目失败。需要基于具体的业务需求和技术背景,选择最合适的技术和方法。

(6)维护和迭代:随着时间的推移,数据分布可能发生变化,模型可能需要定期更新以维持性能。需要建立有效的机制来监测模型性能,并根据需要进行迭代更新。

(7)用户接受度和伦理考虑:用户可能对AI做出的决策持怀疑态度,特别是在高风险的应用场景中。在设计和实施AI解决方案时,需要考虑伦理问题,确保AI的使用是公正和透明的。

(8)监管和合规性:特定行业(如金融、医疗)对AI的使用有严格的监管要求,需要确保AI项目符合所有相关法规和行业标准。

04、大模型精调/定制化的成本

通过在预训练的通用大模型上微调获得定制化行业模型最适合中国国情,不过成本、技术、数据方面都有着较高的门槛(但相比从0到1全量训练自己的基础大模型毫无疑问是较低的),需要一定的基础设施和投资。

其成本区间根据项目的规模、复杂度、以及所需的精度等不同因素有很大的差异。但大致需要花费多少呢?

基础设施

定制化模型需要一系列技术基础设施来支持模型的开发、训练、部署和维护:

  • 计算资源:包括GPU或TPU等高性能计算单元,用于处理大规模数据集和执行复杂的模型训练任务。
  • 存储系统:需要大容量、高速的存储系统来存储训练数据、模型参数等。
  • 开发环境:包括软件工具和框架(如TensorFlow、PyTorch等),以及模型开发和测试所需的其他软件环境。
  • 部署平台:用于将训练好的模型部署到生产环境,可能包括云服务、服务器或其他边缘计算设备。

成本区间

成本可以从几千到几百万美元不等,主要取决于以下因素:

  • 模型的规模和复杂度:更大、更复杂的模型需要更多的计算资源和时间,成本相应更高。
  • 数据的规模和处理需求:收集、清洗和标注大量数据的成本可能很高。
  • 训练时间:训练时间越长,使用的计算资源越多,成本越高。
  • 专业人员:需要雇佣数据科学家、机器学习工程师等专业人员,人力成本也是重要考量。

云平台厂商

“卖铲子”这个商机当然早就被捕捉到了,大部分的云平台厂商都会提供,例如前文所提到的百度智能云(千帆大模型平台):

图片

微软、谷歌、亚马逊、华为……也都有提供。

微软Azure AI:

图片

亚马逊Bedrock:

图片

华为云:

图片

企业可考虑成本、服务范围、技术支持等多方面因素,选择适合自己业务需求的平台和服务,降低大模型定制化的门槛,加速AI应用的开发和部署。不过,具体选择哪个平台,还需考虑成本、服务范围、技术支持等多方面因素。

私有化部署

当然有些企业出于数据、隐私等方面的考虑,不想要采用上云的AI大模型定制化方式,而是想要私有化部署。这方面也有厂商提供解决方案,例如智谱AI、科大讯飞、竹间智能等。

在这里,我们不妨用智谱AI的私有化定价作为参考。根据其官网最新介绍,云端私有化的部署价格如下:

图片

本地私有化部署价格如下:

图片

当然,随着时间的发展,相信这些成本会进一步降低。


以上,就是关于大模型私有化和精调的初步研习分享。

本期到此结束。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/809262
推荐阅读
相关标签
  

闽ICP备14008679号