AI系列：大语言模型LLM的兴起_大语言模型(llm)产生

作者：爱喝兽奶帝天荒 | 2024-07-27 03:53:01

踩

大语言模型(llm)产生

大语言模型（LLM）起飞

2022年11月，GPT 3.5的发布引起了公众的广泛关注。OpenAI一跃成为最炙手可热的高科技公司。AI技术日新周异。世界迎来了一场新的技术范式变革。

虽然AI从ChatGPT开始引起普遍的关注，但实际上大语言模型（LLM）领域的研究早年已经在拥有最先进的技术的组织内进行。2017年Google发布的Transformer论文Attention is All You Need是大语言模型的基础。

一般的软件是由人类工程师编写，他们为计算机提供明确的、逐步的指令。LLM是建立在一个使用数十亿个语言词汇进行训练的神经网络之上。使用LLM，人类可以使用自然语言与机器进行沟通交流，似乎机器学会了思考，真正智能起来了。

大模型内部表示为一个多维度的向量空间，其实是超多维，比如GPT3采用12,288个维度。这是很难想象的，但是计算机理解多个维度并不困难，在这个空间里每个词元（token/一个token对应一个人类语言的单词片段）都有自己的坐标。以一种人类目前难以完全解释的方式，在已知token的基础上，生成概率最大的下一个token，不断的自回归直到生成所有的token。

说到这里，这是不是再次证明了世界的有序性。任何我们无法解释的现象或者玄学，其实归根到底是数学物理化学问题，只是我们暂时没有找到答案而已。

这篇understandingai网站上的文章比较全面的解释了LLM的原理：
Large language models, explained with a minimum of math and jargon

AI的影响

虽然人们对AGI的实现预期不同，但毫无疑问的认识到这将引起巨大的变革。

上百家大模型厂家和更多的框架和应用
- 嗅觉最灵敏的组织和个人已经投入到AI领域。
大公司开始裁减其他部门的职位
- 比如，Google在今年1月20日的裁员声明中提到将裁减大约12,000个职位。这将帮助Google重点布局AI领域，以应对未来的机遇和挑战。
AI对于脑力劳动的替代
- 比如，Linux中国网站在今年2月1日的停止更新和运营的声明中提到：近年来，随着计算机翻译技术的进步，尤其是 ChatGPT 的出现，翻译工作的必要性大为降低。自去年以来，我一直使用 ChatGPT 来翻译一些文章，尽管还需要一至两次校对，但基本没什么大问题。所以，LCTT 的存在也显得不那么重要了。

大模型

国外大模型

对话产品	大模型	使用
OpenAI ChatGPT	GPT-3.5 GPT-4	目前可以直接注册，并免费在ChatGPT平台使用GPT3.5大模型；其他功能需要国外付费方式
Microsoft Copilot	GPT
Google Bard	Gemini	需要注册Google账号，目前免费。
adding…

国内大模型

对话产品	大模型	使用
百度文心一言	文心4.0	可以免费使用较低版本文心大模型3.5
阿里云百炼	通义千问2.0
讯飞星火	星火3.5
adding…

LLM的体验

我用GPT3.5来进行代码相关的工作时，LLM的表现是出乎我的意料的。大多数情况下，它非常好的理解了我的提问，并能辅助我编写和调试程序。可以说，对于很多方面的理解，是完全超越人类个体的。而且随着模型的版本不断提升，它的能力也越来越强。

另一方面，LLM的理智和耐心，也让它成为超好的副驾驶。

当然，大模型也有自己的问题。
比如幻觉，即大家所说的一本正经的胡说八道。

再比如，数学计算能力差。
我曾经使用GPT3.5帮我统计一次活动的费用，包括不同人数的家庭，已付钱数；总数按人头平均，计算家庭为单位的欠款和退款。GPT的输出逻辑上完全清楚明白，但是仔细看下，钱数却在某些步骤中算错了。GPT拥有优秀的语义推理，却并不擅长计算。在这种情况下，通用做法是让LLM输出相关的代码，再结合代码去跑出正确的结果。

可以预计的是，AI的技术革新将：

提高技术的易用性。自然语言成为与机器交互的方式。人们会逐渐适应新的使用方式。比如大模型技术基础上的语义沟通替代传统搜索引擎的关键词搜索，或者相结合。
社会分工出现大的重组。对于个人来说，要做些思量和准备。

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】