从零开始一步一步掌握大语言模型---（1-写在最开始）

作者：凡人多烦事01 | 2024-03-22 23:05:51

踩

一、为什么要开始这个系列？

从23年开始接触Chatpgt以来，被其强大的功能深深的震撼到。它不仅是能写论文，编故事，真的是能深刻影响到我们各行各业的一项新技术。在我们社会即将迎来智能化革命的前期，深刻的理解和掌握这项技术，是参与到这波智能化革命中的必要条件。因此，开始这个系列，既是对我学习的总结，也希望能够帮助到尽可能多的人或者认识到更多可爱的人。

二、什么是大语言模型？

维基百科中定义大语言模型（Large Language Model, LLM）是一种语言模型，由许多神经网络的参数所组成，这些参数通常在十亿或百亿以上。这种模型使用自监督学习或者半监督学习通过对海量的未标记文本（就是互联网上爬取的）进行训练所得到的。

三、大语言模型可以做哪些任务？

大语言模型，我认为可以简单的将其理解为一种能通过键盘跟你交流的高中生或者本科生，并且能死心塌地尽可能去完成你交代的工作的一种工具。想想高中生本科生能通过键盘跟你交流什么，干什么，那么大语言模型都可以帮你做。通常来说，大语言模型具有以下几个比较专业的应用：
1.信息检索。因为它在训练阶段给它输入了海量的文本，甚至是互联网上所有尽可能的文字。所以它在训练过程中，可能学会了（捕获了）我们人类的大部分句法或语义，记住了这个世界的大量知识。所以现在很多搜索引擎如谷歌、百度等都借用它来实现高效的检索。
2.情感分析。给大模型输入文本，让其判断属于哪一类的情感。不要小看这项能力，在政府治理中，通过利用该技术，可以实时的监测到某项事件或者某段时间人民的舆情状况。或者在卖商品的里面，就可以快速分析中哪些商品人们对其的评价状况。
3.文本生成。这当然是大语言模型的拿手把戏了。给其一段命令，它可以生成出更多的内容。写故事，写论文，续写等等。之所以是拿手把戏，是因为大模型训练的时候，就是让它尝试尽可能的预测到下一个是什么字。通过不断的预测下一个字，就可以不断生成出更多的文字。其实这点和人类也很像，我们说话或者打字的时候，其实也是说完前面的，随后就会生成出后面的，（当然指的是一次对话或者同一个话题，如果换一个话题肯定就没办法按照预测的方式跳过去了）。
4.代码生成。代码也是文本，只不过是更有逻辑性的文本。在训练阶段输入代码功能的注释，以及大量的代码，让它尝试按照注释去生成出原来的代码。这样大语言模型就可以学习到用户输入一个功能，它怎么去生成出相对应的代码了。
5.聊天机器人。这点很好玩，因为大语言模型学习到了大量的人类知识，因此通过对话的方式，可以跟它聊天，而不是把它当成一个玩具或者弱智。
6.医疗保健和科学。大语言模型可以理解蛋白质、分子、DNA和RNA。利用LLM可以协助疫苗研制，寻找治疗方法。作为医疗聊天机器人，可以接收患者入院或进行基本诊断。
7.客户服务。可以把大模型微调成自己公司的专属客服。
8.营销。不懂。可能可以拿它写些广告词之类。
9.法律。现在清华大学的刘知远团队就在做。将大模型用到法律的各个业务流程中。
10.金融。用大模型分析用户是否遭遇欺诈或者异常的金融活动。这个后续我要进一步研究。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/291520