NLP学习笔记-浅谈对话系统_nlp 对话评估

作者：繁依Fanyi0 | 2024-04-07 06:25:20

踩

nlp 对话评估

本文目录

引子

图灵测试（The Turing test）由艾伦·麦席森·图灵提出，指测试者与被测试者（一个人和一台机器）隔开的情况下，通过一些装置（如键盘）向被测试者随意提问。
进行多次测试后，如果机器让平均每个参与者做出超过30%的误判，那么这台机器就通过了测试，并被认为具有人类智能。图灵测试一词来源于计算机科学和密码学的先驱艾伦·麦席森·图灵写于1950年的一篇论文《计算机器与智能》，其中30%是图灵对2000年时的机器思考能力的一个预测，我们已远远落后于这个预测

从非功利的角度讲，我们研究对话系统，自然也是希望它能通过图灵测试的。

概念引入

简单来讲，对话任务分为任务完成型和闲聊型，分别对应限定域对话和开放域对话，同时，在用户实际的对话需求中，除了简单聊天和完成特定场景下的特定的任务，还有一大类知识获取（即问答）的需求。而这类问答对话又可以分为基于知识图谱的对话（KB-Dialogue）和检索式多轮问答等更加细化的方向。除此之外，闲聊、任务完成与问答三者之间也不是完全割裂的。

同样的道理，它们与限定域和开放域的关系也并非一一对应的，任务完成为导向的对话也不一定就是限定域的，闲聊也不一定是开放域的，比如给定一个主题或文章而展开的场景化闲聊。

对于闲聊任务，主流方法分为两类，基于检索的方法与基于生成的方法。显然兵分两路的话就代表各自都有各自的优缺点，当然也有一些工作试图将两者进行结合.。

生成式对话

对于生成式对话，可以说一言难尽。虽然看似可以将对话看作是seq2seq问题，然而我们知道在机器翻译问题上成功的seq2seq范式很大程度上是因为翻译的source和target有相对确定的token-level的对应关系，例如中英翻译任务上，输入为"资本家，你工人爷爷来了"，那么对应的输出空间其实非常有限。

然而在对话任务上，输入为"资本家，你工人爷爷来了"时对应的输出空间非常大

显然，如果同样建模成生成问题，机器翻译任务相当于每个输入问题都有一个差不多的标准答案，即属于“客观题”；而对话生成任务则相当于一个“主观题”，只要不偏题就行，没有标准回答，好坏全看个人文采。这里面的难度是很难想象的，因此对生成式对话系统（开放域）的评估一直是一个很让人头疼的问题，需要高度依赖人工评定。

更不用说在不同的人，不同的时间，不同的条件，不同的语境下生成对应的回答。

检索式对话

在这里插入图片描述

关于检索式，最简单的检索就是一一对应，比如，今天你吃了吗，对于这句话，这个问题，我们设定一个标准的回答，“刚吃，你呢”，一个很简单，也很现实的问题，如果我用不同的发问方式并且是同样的意思，比如，“你好啊，今天吃了没”，这样的回答还能生效吗，自然是不能的，怎么解决呢，一个简单粗暴的方式就是，我把你会问的所有的问题做成一个记录，检测到你对应的问题，我直接调用答案就是，问题在于，就目前的状况来说，计算机扛不住，至少我们能接触到的是扛不住这样的运算规模的，但是这样的想法是最简单，也是最直接而且效果最好的，那么，有没有同样的方式，或者说类似的方式使得我们能达到同样的效果，且对算力要求相对较低达到我们能接受的程度。
可以这样想，一句话，只要意思类似，我们能不能做出同样的回答，自然是可以，那么我们只要将之归类，或者说通过某种运算方式让相同意思的句子在数值上接近，自然就能达到我们想要的效果，很自然的，我们就想到条件概率。

任务完成型对话

与闲聊为目的的对话有很大的不同，任务完成型的对话的最终目标是完成任务。

这一方面联想强化学习即可
对于强化学习可以从这里简单了解
。

对话系统目前面临的挑战

整合语境挑战

比如，一句话在什么节日说，什么时间说，什么情景下说，含义是不同的，这就对整合不同类型的语境提出了要求。

一致人格挑战

我们训练的数据，因为场景，涉及领域的不同，我们不能保证每个数据都是同一人产生，那么由此就带来了问题，比如，不同的人讲话的风格不同，而我们这边始终是同一个系统在跟用户对话，不能让用户察觉到我们是机器的话，这方面就对人格的整合提出了要求。

意图与多样性挑战

人在聊天的时候，大部分的话是有意图的，用户在使用对话系统的时候意图千奇百怪。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/376948