赞
踩
语言模型概念的提出者是贾里尼克,1972年,他正式离开康奈尔大学,来到 IBM,为自己的研究部门挑选了语音识别这个课题。
早期,科学家们主要是从语音学和语言学入手研究自然语言处理。贾里尼克和之前那些研究人员所不同的是,他不是语音学家,也不是语言学家,而是一个数学基础非常好的通信专家。
因此,贾里尼克的想法不受之前的限制,他以一种独特的视角来看待自然语言处理问题,即把它们都看成是一种通信问题。
根据香农确立的现代通信原理,所谓的通信,也被称为信道的编码和解码,无非是信息源先产生一个原始信息,然后在接收方还原一个和原始信息最接近的信息。
比如,你传输一句话,“中国是一个古老的国家”。在传输前要对它进行编码,但是,传输中一定会有噪音和信号损失,接收方接收到的编码可能会发生变化,这样就翻译不回原来的句子了。
通信系统会计算哪一种可能性的概率最大,然后把它选出来。只要传输中的噪音不是太大,而且传输的信息有冗余,我们就都能复原原来的信息。
不是让计算机学着人的做法去理解语言,而是最好能够让计算机计算出来哪一种语句出现的概率最大。这种计算自然语言每个句子概率的数学模型,就是语言模型。
一句话总结:语言模型是对人类的语言建立数学模型。
那遇到小概率的事件应该怎么办呢?
首先,利用更多的上下文信息,消除所有的不确定性。(第一代语言模型用的上下文信息就很少,但是到了GPT-3,就用到了前后2000个词的信息,包括标点符号等,都算成是词)
由于自然语言中有信息冗余,在这么多的上下文里,几乎就不存在不确定性了。这也是为什么今天 ChatGPT 产生的语句,已经很像人说的话了。但从本质上讲,它的原理依然是在很多种候选中,选择一个概率最大的句子。
一句话总结:提供更多的上下文信息。
早期的语言模型只是看上下文,事实上,在生活中很多常见的说法都是有语法错误的,但是语言模型不考虑这种情况,它只是认为人们说得多的就是好的句子。
具体来说,就是统计在相同的上下文的条件下,每个词具体出现了多少次。因此,语言模型也被称为是统计语言模型,因为它的模型参数,也就是用来计算各种概率的参数,都是靠统计得出的。
今天对于语言模型参数的统计并不是简单的数数,而是要用很复杂的机器学习方法反复计算,统计在相同的上下文的条件下,每个词具体出现了多少次。因此,语言模型也被称为是统计语言模型。为了避免小概率事件所带来的噪音,我们能做的就是增加数据量。
一句话总结:出现次数多的就是好句子。
从根本上说,人类的语言其实是不精确的,目前机器还没法很好地理解人类说的话,所以了出现PE (Prompt Engineering) 的技术。这项技术就让可以通过更好提示词让 AI 给出好的答案。后面的内容我将提供一个工具去完成上面的提示编写。
1、信息形式的转换
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。