秋刀鱼在做梦

这个屌丝很懒，什么也没留下！

热门标签

AI大模型基础入门（非常详细）零基础入门到精通，收藏这一篇就够了_ai大模型学习

作者：秋刀鱼在做梦 | 2024-06-24 11:33:58

踩

ai大模型学习

大模型的技术边界，哪些应用场景可以，哪些场景不可以，如何判断？

创业者们都在聊TPF和PMF，当我被问到上面这个问题的时候，发现脑子中的答案是模糊的，因此有了这篇 7000+字的深度分析，希望与大家共同探讨出一些判断思路~

先给出一个简单的判断方法：

场景领域的【知识是可以教会】的吗？
对【精确性】和【容错率】要求高吗？
是否有人类的【质检】流程？
对【安全、成本、速度和并发】要求高吗？

01
大模型是一个精英实习生

当大模型的价格已经不是制约发展的因素了，为什么我们还是没有太感受到新技术的价值？用户从 DEMO 视频获得的科幻片爽感，远大于实际使用的兴奋感，更别提粘性和无法离开的必备感了。我们对大模型的感觉就像新招了一个精英实习生，对他的期待很高，但落地干活又根本无法独立负责。

那么这样一个潜力巨大的实习生（大模型），他的能力边界在哪里？哪些活（应用场景）能干，哪些活不能干？如何判断呢？

你会让他转正吗？你会亲自带他，还是等他能力和经验提升后，再重新社招入职？

本文主要讨论语言模型。

先回顾 3 个典型的 C 端用户量大的应用类型。

通用 Chabot

ChatGPT 目前的用户量据公开信息推测应该是 5000~1亿日活，过去他更多是 GPT 能力的展示体验类产品，随着更多大模型厂商和套壳类产品的发展，新版的 ChatGPT 也会引导用户典型的应用场景。大模型厂商拥有更强的技术能力认知和用户使用数据的洞察，可以认为这些方向是他们看到的有规模化潜力的应用方向。

国产厂商的产品场景性更强，例如：

「万知」主打工作效率

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

「Kimi」强调阅读、写作和生活实用

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AI 情感陪伴

头部产品，无论是海外的 C.ai 还是国内的星野，DAU 均在百万级别。这类产品尚未能覆盖更广泛的需求，但在细分的情感陪伴场景上，获得了非常好的 PMF 和商业化验证。收入是最好的大模型落地应用成功的判断。

AI 搜索

海外的perplexity 和国内的 360AI 搜索，DAU 推测约在大几百万到千万级别，虽然开始尝试商业化，但是尚未获得很好的验证。另外对比当前的搜索引擎产品的数亿用户规模，可以暂时评判在这个场景下的产品服务并不算成功，还需要非常多的产品创新和模型能力提升。

再来看 3 个典型的 B 端服务场景。

客户服务

客服在上一代 AI 技术上，就已经可以服务很多用户场景了，大模型将填补更多用户咨询，但这类项目融资估值都不太高，毕竟没有创造更大的价值。

但是从客服转向销售，以及从问答到客服问题的自动化执行解决，就会好很多，但目前都在产品概念验证的阶段。

办公效率

飞书、钉钉、office 等办公套件大厂都在描绘着工作的各个场景的 AI 化，看起来打工效率要飞速提升了。而事实上从飞书智能伙伴，还是微软的 copilot 系列产品，也是方法论大于实用价值。

但落到更具体的场景上，会议记录和总结，企业知识问答，已经受到广泛好评和使用了。

营销

AIGC 第一波就是营销文案的生成，为什么还没有被全行业拥抱？营销是商学院知识的重要占比，因为营销的概念涵盖范围非常广泛。AI 到底能在多大程度上赋能？从营销的形式、策略、载体、渠道和人群等各方面均需要更多的探索。

以上简单列了一些场景，看到大模型的未来困难重重，又希望满满。

AGI 的愿景是创造出比人类更聪明的通用人工智能，造福全人类。但在去往这个未来的路上，还需要脚踏实地的让技术匹配产品匹配市场，产生飞轮效应，更快速的前进。

因此，回到当前最大挑战的问题上，如何找到 TPF、PMF ？大模型的技术边界是什么，哪些应用场景可以，哪些场景不可以，如何判断？

02
技术边界的判断框架

本文提出如下图的判断方法，【精确度】和【容错率】四象限边界框架。

大模型的商业化落地，每块地的落地难度有多大？我将其划分为沃土、荒地、盐碱地和新大陆四种类型。文章结尾总结处有更多的相关讨论。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

精确度的定义：是指对任务结果正确与错误，有明确的判断标准。

举例：

高精确度：
中国的首都是哪里？
北京。
低精确度：
请一句话赞美上海。
上海，这座璀璨的东方之珠，以其独特的魅力、繁荣的经济和深厚的文化底蕴，展现了无与伦比的现代都市风采。

特点：高精确度的结果一般是有正确参考答案的，像人的理性思考。低精确度的结果，一般没有正确回答，怎么回答都可以，像人的感性思考。

容错率的定义：是指对任务问题的错误结果，有多大的容忍度。

举例：

高容错率：
请帮我总结这篇微信公众号文章的要点。
低容错率：
请帮我总结一下领导在这次会议上提出的要求。

特点：高容错率意味着有纠错机制或者二次质检；低容错率意味着最好一次性回答正确。

03
为什么精确度是一个核心的判断标准？

概率模型

生成式预训练大模型，核心算法是一个概率模型，从技术原理上决定了 AI 的回答，其预测生成的结果无法保证百分之百准确，每一步都有可能出错。那么自然需要去判断哪些场景可以接受一定的错误结果，或通过某种机制来矫正错误结果，或者没有对错之分的界限。

大模型的能力

1. 泛化性

在概率模型的基础上，我们再回顾总结一下大模型的能力。通用大模型的核心特点是能力的泛化，即大模型能够掌握多少预训练数据之外的能力和知识。目前这种泛化性，主要通过数据集评测和应用实践来验证判断，还没有较为明确的结论，也没有更简单直接的判断方法。而大模型仍然在通过更好的算法、更多更优质的预训练数据、更大的算力在持续进化中，需要持续的更新判断和认知。

解释完泛化性，我们继续讨论一下更具体的能力特点和应用场景的举例。

2. 具备丰富的世界知识

超大规模的预训练数据量和泛化能力，使得大模型具备较为丰富的世界知识。但是需要强调的是他的知识不一定是正确的。

从应用上来说，百科知识产品，具备人为编辑后的正确性保障，但 AI 知识问答拥有更高的问答自由度和对复杂知识问题的解答。而对于事实性的知识，尤其是时间、数量等关键却细节的知识， AI 经常是错的。

由此简单给出一个判断方法，大模型适合回答概念性和逻辑性的知识，不适合回答细节和事实性的知识。

3. 通用任务解决能力

仍然是基于泛化性，大模型对各类任务都有较强的求解能力。例如情感分类、数值计算、知识推理等。

从应用上来说，如果阅读一篇英文的新闻，就可以让其读完了之后，再用中文总结出来。这在过去就分别需要翻译和总结摘要两个能力模型，大模型更好的解决了这类任务。

由此简单给出一个判断方法，大模型在多任务处理的场景，相比传统做法具有更好的综合性优势。

4. 复杂任务推理能力

大模型的推理能力的讨论多来自于各类测评结果和涌现现象。能力的强弱和范围的评判，更多是经验归纳。

从应用上来说，逻辑推理既可以在复杂回答中生成更具有逻辑性的深度内容，使得回答更有说服力，例如写一份市场营销策略的规划，或者根据实验数据写一份学术报告。前者的结果采用程度较高，而学术报告，可能采用程度就比较低了。

对这个能力的判断，可以将各类任务都扔给大模型试试。对于复杂的系统性的任务，最好先拆成足够小的明确的任务，如果期待一次性直接给出正确或有价值的回答，会比较容易失望。

5. 人类指令遵循能力

主要通过指令微调和人类反馈强化学习，大模型能够听得懂且能生成人类的自然语言。但他并不一定能听得懂所有的话，例如各种行业黑话（没在语料中出现过的）等人类新造的语句。

从应用上来说，强语言沟通和以人为中心的场景会有很大的价值，例如各类智能音箱、车机对话等，反观用自然语言来处理表格数据，则有可能会变成罗永浩的TNT 工作站，用嘴讲话的工作方式不一定更高……

判断方法：场景的自然语言适配性和语言的生僻度。

大模型的问题和局限性

根据 OpenAI 的系列技术报告，大模型最大的问题仍然是，有“幻觉”的倾向，即“根据某些来源生成意义不明或不真实的内容”。大白话就是「睁眼说瞎话」。

幻觉问题使得当模型在用户熟悉的领域里，提供错误的信息时，会感到AI 不可靠不可用。

但有意思的是，随着模型变得更强，生成的内容更加真实，幻觉可能变得更加危险，因为用户会对该模型产生信任，在不熟悉的领域里，就会过度依赖大模型，就像信错了人一样……

GPT4 的技术报告里列举了更多风险问题如下：

• 幻觉

• 有害内容

• 代表、分配和服务质量的危害

• 虚假信息和影响行动

• 常规和非常规武器的扩散

• 隐私

• 网络安全

• 可能出现危险的突发行为

• 与其他系统的交互

• 经济影响

• 加速

• 过度依赖

为了解决这些问题，大模型都会做人类对齐，然而做对齐，就需要选择和谁对齐？和什么样的价值观对齐？发布出来的大模型经过对齐，已经有了某种特定的三观和个性，世界上各个国家、人种和人群，并不是有统一的三观和个性，因此也会带来很多场景的不可用。并且有了对齐之后的大模型，也会损失很多细节的知识和对世界的理解。

本文就不做更多讨论了，风险其实也代表着某种灰产能做的事情。对安全要求很高的应用的场景，也是大模型暂时不能做的事情，还需要进一步的风险解决方案。

应用场景是否能接受幻觉问题，仍然是可以通过精确度和容错率来判断。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里贴出来 SuperCLUE对于大模型通用能力的测评基准，可以作为一个很全面的能力一览图，对各类能力的现状和应用场景都有个客观的评测打分。

结合本文提出的精确度和容错率的判断框架，结合场景需求的分析，可以得出自己的判断。

对于真实落地到市场用户的效果，则需要通过用户反馈来进一步判断。

04
应用场景的能力增强和问题解决方案

除了直接使用大模型的能力，结合各类其他方式，也能将原本不能做的或者表现的不好的应用场景，得到很大的改善，甚至变为可用。

1 Prompt 工程

常用的技巧有：

更多以及结构化的提示词描述，给出任务角色、交待好任务背景和目标；
思维链、执行步骤和样例数据
更多的、结构化的和明确的上下文输入
对输出结果的明确格式或风格等要求

2 微调

简化来说，prompt 不够用了，就得上微调。通过微调可以提升特定领域知识内容的理解能力，激发增强特定领域知识内容的推理能力。

3 多工具使用

大模型目前均提供了各类强大工具的调用。

代码解释器，让大模型可以理解、解释、运行和更好的生成代码。增强了代码问答的场景，增强了数学、计算等问题。
联网搜索，对最新的知识、事实性的内容和预训练缺乏的数据，都可以通过联网搜索再总结，获得更好的回答结果。AI 搜索（或叫答案引擎）是最有前景的应用场景之一了。
函数调用，可以增强模型推理效果或进行其他外部操作，例如查询天气、航班等。

4 外挂知识库 RAG

是一种结合信息检索和生成技术的方法，利用大模型的生成能力和检索系统的精确性来提供更可靠和信息丰富的回答。RAG 的使用场景和行业非常广泛，几乎只要涉及到知识问答和事实性内容的场景都会用到，比如企业内的知识库问答，各类开放平台对外技术支持问答，客服系统，规章制度问答，百度百科等等。

5 工作流

当复杂的任务无法通过 prompt 来解决，比如当目标任务场景包含较多的步骤，且对输出结果的准确性、格式有严格要求时，就适合配置工作流来实现。

例如旅游规划、战略分析报告和运营 SOP 执行等等。

6 Agent

智能体组合了以上各类能力和解决方案，通过计划、执行、检查、调整等，完成更加系统性的工作目标。还可以通过多 Agent 模式搭建功能更加全面和复杂的 AI Bot。例如角色扮演游戏，私董会，AI 产品开发团队等。

05
生成结果由谁负责？

即使组合了以上各类方案，大模型的可以落地解决的问题类型的范围被扩大了很多。但是始终无法保证结果的完全正确，因此最终的任务生成结果，是由人负责的，那么大模型就能做。如果是由 AI 负责的，缺乏人的检查，就要考虑是否能接受一定错误率了，也许大模型就不能做。（所以 AI 暂时不能替代人，但是一定会替代掉不用 AI 的人）

大模型会犯错，其实人也会犯错，那么为什么我们敢相信人类负责的工作呢？

举一个例子，如果你去医院看病，会进行各类仪器的检查，出检查报告，医生会根据各类检查报告，以及和你的沟通进行诊断。而医生本身又是经过几十年的学习和大量的临床案例的总结训练的。如果是一个复杂或严重的病，他还会组织专家会诊，而我们自己也会选择多家医院多次检查看病。这里面的每一步都是在反复校验诊断结果。

但目前的大模型的每一步生成都不能确保是正确的，且对于复杂任务，他的生成结果不具备可解释性。

因此我们当一个复杂任务的每一步是否可解释，可判断且最终是否有人检查，就成了该任务是否能让大模型做的另一个重要判断标准。

然而并不是所有的工作都可以被轻松检查和解释。例如编剧想编写一部新电影，他很难和 AI 提出要求，或者检查 AI 的生成结果。如果对 AI 的生成结果进行反复沟通提要求修改，几乎最终这部新剧本都是由人类完成的，可能会更累。因为编剧也没有想好剧本的核心内容，这是一个创新的过程，且只在这个编剧的脑子里才有。相反的，如果我们为某个咖啡，批量生成抖音短视频的脚本，大模型则可以提供比较好的帮助。充分利用大模型的脑力，穷举喝咖啡所有场景，结合品牌的特点和创作要求，可以从数百篇脚本中，选择出一些可用的内容，大大提高了写脚本的效率。

再举一个总结摘要文章的简单例子，概述文章，一般可以获得不错的生成结果。但是我想让它提炼金句却很难，人类一看就知道哪些是金句（新观点、精妙的比喻等），但是大模型通常很难懂，如果我要检查一遍，就相当于我已经把任务做完了。那这个工作还不如就自己做了。

那么能不能让一个 AI 当另一个 AI 的质检员呢？实际上质量检查是一个非常难的工作，很多行业的负责检查工作的人都拥有比生产工作的人有更多的行业经验。因此让一个会犯错的 AI 当质检，可以一定程度上的提升效果，但还是不太靠谱，无法解决问题。