当前位置:   article > 正文

NLP学习笔记-浅谈对话系统_nlp 对话评估

nlp 对话评估

引子

图灵测试(The Turing test)由艾伦·麦席森·图灵提出,指测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。
进行多次测试后,如果机器让平均每个参与者做出超过30%的误判,那么这台机器就通过了测试,并被认为具有人类智能。图灵测试一词来源于计算机科学和密码学的先驱艾伦·麦席森·图灵写于1950年的一篇论文《计算机器与智能》,其中30%是图灵对2000年时的机器思考能力的一个预测,我们已远远落后于这个预测

从非功利的角度讲,我们研究对话系统,自然也是希望它能通过图灵测试的。

概念引入

简单来讲,对话任务分为任务完成型和闲聊型,分别对应限定域对话和开放域对话,同时,在用户实际的对话需求中,除了简单聊天和完成特定场景下的特定的任务,还有一大类知识获取(即问答)的需求。而这类问答对话又可以分为基于知识图谱的对话(KB-Dialogue)和检索式多轮问答等更加细化的方向。除此之外,闲聊、任务完成与问答三者之间也不是完全割裂的。

同样的道理,它们与限定域和开放域的关系也并非一一对应的,任务完成为导向的对话也不一定就是限定域的,闲聊也不一定是开放域的,比如给定一个主题或文章而展开的场景化闲聊。

对于闲聊任务,主流方法分为两类,基于检索的方法与基于生成的方法。显然兵分两路的话就代表各自都有各自的优缺点,当然也有一些工作试图将两者进行结合.。

生成式对话

对于生成式对话,可以说一言难尽。虽然看似可以将对话看作是seq2seq问题,然而我们知道在机器翻译问题上成功的seq2seq范式很大程度上是因为翻译的source和target有相对确定的token-level的对应关系,例如中英翻译任务上,输入为"资本家,你工人爷爷来了",那么对应的输出空间其实非常有限。

然而在对话任务上,输入为"资本家,你工人爷爷来了"时对应的输出空间非常大

显然,如果同样建模成生成问题,机器翻译任务相当于每个输入问题都有一个差不多的标准答案,即属于“客观题”;而对话生成任务则相当于一个“主观题”,只要不偏题就行,没有标准回答,好坏全看个人文采。这里面的难度是很难想象的,因此对生成式对话系统(开放域)的评估一直是一个很让人头疼的问题,需要高度依赖人工评定。

更不用说在不同的人,不同的时间,不同的条件,不同的语境下生成对应的回答。

检索式对话

在这里插入图片描述

关于检索式,最简单的检索就是一一对应,比如,今天你吃了吗,对于这句话,这个问题,我们设定一个标准的回答,“刚吃,你呢”,一个很简单,也很现实的问题,如果我用不同的发问方式并且是同样的意思,比如,“你好啊,今天吃了没”,这样的回答还能生效吗,自然是不能的,怎么解决呢,一个简单粗暴的方式就是,我把你会问的所有的问题做成一个记录,检测到你对应的问题,我直接调用答案就是,问题在于,就目前的状况来说,计算机扛不住,至少我们能接触到的是扛不住这样的运算规模的,但是这样的想法是最简单,也是最直接而且效果最好的,那么,有没有同样的方式,或者说类似的方式使得我们能达到同样的效果,且对算力要求相对较低达到我们能接受的程度。
可以这样想,一句话,只要意思类似,我们能不能做出同样的回答,自然是可以,那么我们只要将之归类,或者说通过某种运算方式让相同意思的句子在数值上接近,自然就能达到我们想要的效果,很自然的,我们就想到条件概率。

任务完成型对话

与闲聊为目的的对话有很大的不同,任务完成型的对话的最终目标是完成任务。

这一方面联想强化学习即可
对于强化学习可以从这里简单了解

对话系统目前面临的挑战

整合语境挑战

比如,一句话在什么节日说,什么时间说,什么情景下说,含义是不同的,这就对整合不同类型的语境提出了要求。

一致人格挑战

我们训练的数据,因为场景,涉及领域的不同,我们不能保证每个数据都是同一人产生,那么由此就带来了问题,比如,不同的人讲话的风格不同,而我们这边始终是同一个系统在跟用户对话,不能让用户察觉到我们是机器的话,这方面就对人格的整合提出了要求。

意图与多样性挑战

人在聊天的时候,大部分的话是有意图的,用户在使用对话系统的时候意图千奇百怪。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/376948
推荐阅读
相关标签
  

闽ICP备14008679号