赞
踩
大型语言模型(LLMs)如ChatGPT、Bing的“Sydney”模式和Google的Bard正在占据新闻头条。与其讨论它们将使哪些工作变得过时,本文将探讨这些模型的工作原理,包括它们从哪里获取数据以及使它们能够生成令人信服的真实文本的基本数学方法。
机器学习101LLMs是一种机器学习模型,就像许多其他模型一样。要理解它们的工作原理,让我们从了解一般的机器学习基础知识开始。
注意:有许多优秀的在线视觉资源可以更详细地解释机器学习,可能比我能解释得更好——我建议查看它们!然而,我将在这里介绍基本概念。
掌握基本的ML模型的最简单方法是考虑预测:基于我已经知道的,在一个新情况下会发生什么?这类似于你的大脑如何工作。
想象你有一个总是迟到的朋友。你正在计划一个聚会,所以你预计他还会迟到。虽然不确定,但根据他的记录,你认为有很大的可能性。如果他准时到达,你会感到惊讶,并且你会记住这一点;也许下次你会调整对他的迟到的期望。
你的大脑中有许多这样的模型不断工作,但目前我们还不完全了解它们在内部是如何实际工作的。在现实世界中,我们不得不使用算法来应对——有些简单,有些非常复杂——它们从数据中学习并预测新情况下可能会发生的事情。通常,模型被训练来做特定的事情(如预测股票价格或创建图像),但它们正变得越来越多功能化。
机器学习模型有点像API:它接收输入,你教它产生特定的输出。以下是这个过程:
根据模型需要完成的具体任务,你创建模型的接口,决定它接收什么信息以及返回什么信息。
你可能会问,这个算法是做什么的?嗯,可以把它想象成一个超级聪明的分析师。它可以发现你提供的数据中的关联关系,这些关联关系通常是你自己很难发现的。数据通常包含一些X元素——比如特征、设置、细节——以及一些Y元素——实际发生的事情。如果你正在查看这些数据:
你不需要机器学习来告诉你当X为15时,Y约为150,000。但是如果有30个不同的X因素呢?或者数据看起来很怪异?或者是文本?机器学习就是解决我们人类技能不足的棘手情况。就是这样。
这就是为什么ML算法可以像线性回归(如统计1)一样简单,也可以像具有数百万节点的神经网络一样复杂。最近新闻中的超级先进模型非常复杂,需要很多人和多年的研究。但在许多公司中,数据科学家使用简单的算法仍然可以获得良好的结果。
从零开始构建强大的ML模型是一个非常专业化的领域。一些数据科学家和机器学习工程师使用PyTorch和Tensorflow等工具创建模型,而其他人则增强现有的开源模型。您还可以选择将整个模型开发过程外包,并使用别人创建的现成模型。
创建模型就像是一个试错的过程。除非你的数据非常直接,否则你可能需要测试不同的方法并在你的模型开始有意义之前进行不断的调整。它融合了科学、数学、艺术和一些随机性。
语言模型和生成文本当你的数据有时间元素时——比如预测未来股票价格或理解即将到来的选举——模型的作用就很明显了。它使用过去来预测未来。然而,许多机器学习模型,如语言模型,根本不处理时间序列数据。
语言模型只是处理文本数据的机器学习模型。你可以在所谓的“语料库”(或仅仅是文本)上训练它们,然后你可以将它们用于各种任务,例如:
1、回答
2、问题搜索
3、摘要
4、转录语言模型的概念已经存在一段时间了,但最近深度学习和神经网络的兴起是一个重大事件;我们将讨论这两者。
概率语言模型简单来说,概率语言模型就像单词或词组的概率图。在英语中,它检查一段文本并分析哪些单词出现,何时出现,出现的频率以及它们出现的次序等等。所有这些信息都是通过统计捕获的。
现在,让我们快速制作自己的语言模型。
以下是两个可能或不一定表达我真实想法的句子:
“最好的曼哈顿鸡尾酒配方使用两盎司Van Brunt帝国黑麦威士忌,一盎司Cocchi Di Torino甜苦艾酒,一撮安格斯图拉苦味酒和一撮橙子苦味酒。我在调酒杯中搅拌大约60次,倒入一个冷却的Nick and Nora杯中,并用一颗樱桃装饰。”
要制作一个简单的概率语言模型,我们将收集n-grams,这是一组词的高级统计术语。让我们将n设置为1,这意味着我们只会计算单词出现的频率。
如果n设置为2:
模型所做的是生成一堆n-grams,关注哪些单词一起出现以及它们的顺序。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。