当前位置:   article > 正文

【多轮对话】任务型多轮对话数据集和采集方法_多轮对话任务如何利用大模型进行信息抽取

多轮对话任务如何利用大模型进行信息抽取

研究任务型对话系统,首先得从数据集采集说起,学术界需要公开的数据集来证明模型的效果,工业界更需要以数据集为基础来构建更鲁棒的对话系统,那么业界成熟的对话系统数据集有哪些呢,对于多轮,如何更科学的采集数据减少错误呢,本文调研了一些近来一些方案供参考。

WoZ&MultiWOZ

A Network-based End-to-End Trainable Task-oriented Dialogue System提出了woz framework
Neural Belief Tracker: Data-Driven Dialogue State Tracking 在woz基础上添加了两个域,命名为woz2.0

WoZ是比较早期的对话数据集,也提出了一种对话数据集采集方法:既然要训练人机对话的模型,让机器像人一样自然的交流,那么我就用人来回复,自然就能够生产拟人的对话交互。这是出发点,采集过程中会告诉标注人员用户目标,然后标注人员开始与系统对话,这里的系统也是一个人,然后两个人对话生成多轮对话流。一句话就是human2human。主要也就是界面展示的开发,user和wizard都是由众包来填写,例如:

user

user: 给出实体(infrom, request),查看历史对话和任务描述,给出适当的回应句子。 如下图
在这里插入图片描述

wizard

在这里插入图片描述
网页给出一个表格,众包工作人员需要浏览对话历史记录。

  1. 通过在本回合解释用户输入填写表单(顶部绿色),并根据历史记录和数据库结果键入适当的响应( 底部绿色)。 提交表单时更新数据库搜索结果。 表单可以分为infrom slot和可request slot,包含state tracker所需的所有标签。
  2. 还需要输出回应

其优势在于:

每个人按轮次来标注,需要查看历史对话记录。使得数据的采集可以并行,减少标注者等待时间。

主要缺点

  • 可能不会涵盖所有的交互。(人主导)
  • 可能包含不适合用作培训数据的对话(例如,如果群众工作者使用过于简单化或过于复杂的语言)
  • 对话注释中可能有错误,需要开发人员过滤和清洗。

Self-play

刚刚也说到人人交互由人主导,对话交互覆盖、准确性等会有一些问题,那么有些文章就提出通过用户模拟器和系统交互生产对话outline,由模板转化为自然语言对话flow,然后通过众包来复述对话。部分方法还会采用bootstrapping方法,通过这部分生成的数据,再训练模拟器,生成更好的会话,再来总包复述。数据集包含:

M2M:

Building a conversational agent overnight with dialogue self-play, 代码
Dialogue Learning with Human Teaching and Feedback in End-to-End Trainable Task-Oriented Dialogue Systems

通过自动化任务无关的步骤以减少建立对话数据集所需的代价,主要包含以下模块

  1. 对话开发者提供任务Schema(intents&Slots)和API客户端,
  2. 自动机器人(User Bot&System bot)生成对话轮廓Outlines,(一个agenda based用户模拟器和一个基于有限状态机器的system agent)
  3. 众包重写成自然语言表达并验证slot span。
  4. 在数据集上用监督学习训练对话模型。
    M2M框架图
    生成大纲与段落的示例。
    在这里插入图片描述
    用户根据M2M生成的outline,来生成真正的对话数据集。

SGD

Towards Scalable Multi-Domain Conversational Agents: The Schema-Guided Dialogue Dataset

也是通过用户模拟和系统进行交互生成outline,通过模板生成简单会话,然后众包进行复述生成更像人的对话数据集,训练集包含16个域,而测试集包含18个域,这里测试集就要求模型具备跨域可迁移的能力。
对于数据集,其中的service、slots、intents除了名字、是否类别槽位,还有一段描述,其实是希望通过描述中更多的信息来获得其向量化表达,比如将描述用一个编码器进行embedding,提升其跨域能力。
例子如下:
在这里插入图片描述

Tree DST

Conversational Semantic Parsing for Dialog State Tracking

也是通过用户模拟和系统进行交互生成对话流,然后众包复述会话。区别在于将之前的dst通过句法解析的方式来建模。不过看最近貌似这种方式对于支持更多更复杂功能的语音助手流行,包括亚马逊的ASML,阿里的KAMR都有点将扁平的结构化表达转化为类树形的结构。
例子如图:
在这里插入图片描述

DSTC

https://zhuanlan.zhihu.com/p/200747822

来源:Amazon Mechanical Turk

dstc其实算是一个比较早的数据集,但是一直在更新,所以留到最后来讲,前期主要是通过human-machine的交互来收集对话数据集,来源是Amazon Mechanical Turk,不同点在于它还包含了automatic speech recognition (ASR)的候选集,更接近于真实情况,因为真实的语音助手就是要面对来自于asr的错误噪声等,需要在这种情况下尽量做出正确的用户反馈。数据集较多,特别是后面一次会有多个任务的数据集,也没有全了解。

值得注意的是DSTC2定义了dialog act一直被沿用至今,包括user act、sys act

User act

act包含的slot描述
inform槽值[(s, v), …]用户告知系统的值,例如:饭店是xx,时间是xxx
request槽位名s用户询问系统的槽位,例如:中国菜的药店有哪些?
ackNone肯定(这里和确认很像,但是这里是会话的肯定,肯定的返回结果),例如:Okay, what’s the phone number of that place?”
affirmNone认可/是的
negateNone否定/不是
reqaltsNone其他、以上都不是
confirmone slot (s, v)s是可以告知的槽位,v是对应的值,例如:这个药品是同仁堂生产的吗?
denyone slot (s, v)s是可以告知的槽位,v是对应的值,例如:不要国产的格列卫
nullNone空、非当前域、未理解
reqmoreNone还有哪些、还有更多的剂型吗
thankyou致谢
helpNone你有什么功能、你可以做什么、我可以问什么
repeatNone重复一下、你说什么
byeNone
HelloNone

例子:

[{"act":"confirm", "slots":[["area", "centre"]]},
 {"act":"request", "slots":[["slot", "phone"]]},
 {"act":"deny", "slots":[["area","north"]]},
 {"act":"hello", "slots":[]},]
  • 1
  • 2
  • 3
  • 4

Sys act

act包含的slot描述
welcomemsg欢迎语
canthelplist of slots根据用户的提供的槽位,在数据库中找不到结果。
canthelp.missing_slot_value没看懂
confirm-domain询问用户是否询问当前域的问题。
expl-confone pair (s, v)显式询问某个槽位值
impl-confone pair (s, v)隐式询问某个槽位值
inform(s, v)告知某个槽位值
request(“slot”, s)询问用户他们的目标s
Offerone pair (“name”, v)像用户推荐某个结果
affirmYes
negateno
select(s, v)给出某个槽位的多个值,让用户进行选择
repeat重复播报一遍
reqmore询问用户是否需要更多信息。
byeBye
canthear用户长时间未作答,提示用户

例子

[{"act":"request", "slots":[["slot","food"]]}]
inform(count=109), impl-conf(food=dontcare), request(pricerange)
canthelp(food=korean, pricerange=moderate)
  • 1
  • 2
  • 3

中文

千言

2020 CCF BDCI 千言:多技能对话:收集了一系列公开的开放域对话数据,并对数据进行了统一的整理以及提供了统一的评测方式,期望从多个技能、多个领域的角度对模型效果进行综合评价

CrossWoz

https://arxiv.org/pdf/2002.11893.pdf

医患对话数据集

http://www.fudan-disc.com/sharedtask/imcs21/index.html

赛道3比较有意思,提供了一个病人模拟器,通过与病人模拟器交互,进行诊断的判断,但是比赛已近结束,联系主办方,询问数据集下载,几个老师同学都无答复。。。

清华 ACL 2020 长文 | KdConv:多领域知识驱动的中文多轮对话数据集

https://cloud.tencent.com/developer/article/1613832?from=article.detail.1904099

论文链接:https://arxiv.org/abs/2004.04100

数据和代码地址:https://github.com/thu-coai/KdConv

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/378942?site
推荐阅读
相关标签
  

闽ICP备14008679号