英文对话数据集总结_有没有开放的英文评论数据

作者：Cpp五条 | 2024-04-24 15:18:05

踩

有没有开放的英文评论数据

这个网站里也可以找到各种类型的数据https://parl.ai/docs/tasks.html

开放领域对话数据集

Dialogue NLI

Dialogue NLI 是一个解决对话模型一致性问题的数据集。
在这里插入图片描述

相关论文：Dialogue Natural Language Inference
数据地址：https://wellecks.github.io/dialogue_nli/（须某种手段才可以打开，你懂的）

Cmu Document Grounded Conversations

用于文本对话的基于文档的数据集，其中文档是关于流行电影的维基百科文章。包含 4112 个对话，每个对话平均 21.43 轮。
在这里插入图片描述

论文：A Dataset for Document Grounded Conversations
Kangyan Zhou, Shrimai Prabhumoye, Alan W Black
数据集地址：https://github.com/festvox/datasets-CMU_DoG

persona-chat数据集

数据集通过亚马逊劳务众包平台“Amazon MechanicalTurk”收集，包含来自人类的162064个对话语句，单个语句每句最多15个词。其中的人类是随机配对的，每个人被随机分配个性化角色，此时每个人只知道自己的个性化角色，不知道对方的个性化角色。每个人要按照被分配的个性化角色进行自然的对话，并且在谈话中了解对方。这就使对话代理可以试着学习模仿有趣和有吸引力的谈话。
数据收集由三个阶段项目组成：

1、构建个性化角色：共构建1155种个性化角色，每个个性化角色至少有5个Profile简介信息描述句，每句最多15个词，留出100个个性化角色用于验证，100个用于测试，其他的用于训练

2、调整个性化角色：解决人类会不知不觉地重复Profile简介信息或者逐字的重复使用某单词的现象，我们将这1155种个性化角色的Profile简介信息利用改写、泛化或专业化等方式重写，重写后的结果如图。用简单的字符串匹配来防止单词重复，“My father worked for Ford.” 可以被修改为 “My dad worked in the car industry”, 但不能被改为 “My dad was employed by Ford.”
在这里插入图片描述
3、个性化角色聊天：我们将两个人随机配对，并随机给他们分配初始构建的个性化角色，来进行聊天，每组对话最少6-8轮，每句最多15个词。由此构建了一个在10907组对话中有162064个句子的数据集，其中15602句子 (1000 组对话) 用于验证，和5024句子 (968 组对话)进行测试

论文：ACL2018. Personalizing dialogue agents: I have a dog, do you have pets too?
未找到数据源但是另一个类似数据集Convai

Convai3一个基于 PersonaChat 的聊天数据集，用于 NIPS 2018 比赛。
比赛的链接：http://convai.io/
数据集的地址：https://github.com/aliannejadi/ClariQ

WebQuestions

WebQuestions数据集（2013年提出）是由斯坦福大学研究人员通过Google Suggest API构建得到的，数据集本身共包含5810条（问题，答案）对，其中简单问题占比在84%，复杂的多跳和推理问题相对较少。根据提出者的最初数据划分方式，WebQuestions被分为训练集和测试集两个集合，其中训练集包含3778条数据，测试集包含2032条数据。

数据格式：json
在这里插入图片描述
论文：Semantic Parsing on Freebase from Question-Answer Pairs
数据集地址：https://worksheets.codalab.org/worksheets/0xba659fe363cb46e7a505c5b6a774dc8a

但该数据集有 2 点不足：

① 数据集中只有问答对，没有包含逻辑形式；

② 简单问题占比在 84%，缺乏复杂的多跳和推理型问题；

针对第一类问题，微软基于该数据集构建了 WebquestionsSP，为每一个答案标注了 SPARQL 查询语句，并去除了部分有歧义、意图不明或者没有明确答案的问题。

针对第二类问题，为了增加问题的复杂性，ComplexQuestions在 WebQuestions 基础上，引入包含类型约束、显式或者隐式的时间约束、多实体约束、聚合类约束(最值和求和)等问题，并提供逻辑形式的查询。

ComplexQuestions

ComplexQuestions数据集（2016年提出）是一个专门针对复杂问题而构建的数据集，在构建该数据集过程中，作者从一个实际使用的搜索引擎（具体哪个暂未知）中筛选并得到了878条可用的问答对。除了这878条数据，作者还从WebQuestions等数据集上额外选出了1222条数据，由此共得到了2100条复杂问题对。总体来说，该数据集共包含2100条问答对，其中训练集个数为1300条，测试集个数为800条。
在这里插入图片描述
论文：Constraint-Based Question Answering with Knowledge Graph
数据集地址：https://github.com/JunweiBao/MulCQA/tree/ComplexQuestions

SimpleQuestions

SimpleQuestions数据集（2015年提出）是一个针对简单问题而构建的数据集，它采用人工标注的方法根据知识库中的事实生成对应的问句，并且以Freebase作为答案来源。该数据集共包含108,442条数据（包含关系标注），其中训练集为75910条（70%），验证集为10845条（10%），测试集为21687条（20%）。
论文：Large-scale Simple Question Answering with Memory Networks
数据集地址：https://research.fb.com/downloads/babi/

ComplexWebQuestions

ComplexWebQuestions数据集基于WebQuestionsSP数据集而建立的。建立方式为：首先根据WebQuestionsSP数据集的SPARQL语句涉及模板进行扩展形成模式化的复杂问句，然后人工将复杂问句进行转述形成自然语言问句。该数据使用场景包含知识图谱问答和阅读理解两个任务，共包含34,689条数据，其中训练集27,734条，验证集3,480条，测试集3,475条。

论文：The web as a knowledge-base for answering complex questions
数据集地址：https://www.tau-nlp.org/compwebq

QALD数据集

QALD评测数据集的全称为Question Answering over Linked Data ，是多语言的链接数据问答系统的评测竞赛活动。
QALD-9 中的问题相比之前更复杂，除了事实类问题，还包括：
计数问题， e.g., How many children does Eddie Murphy have?
最高级， e.g., Which museum in New York has the most visitors?
比较级，e.g., Is Lake Baikal bigger than the Great Bear Lake?
时间聚合， e.g., How many companies were founded in the same year as Google?

数据集格式：xml文件
在这里插入图片描述
评测工具：http://gerbil-qa.aksw.org/gerbil/
数据集地址：https://github.com/ag-sc/QALD

Large-Scale Complex Question Answering Dataset (LcQuAD)数据集

Trivedi等人在 2017 年公布了一个针对 DBpedia 的复杂问题数据集，该数据集中简单的单跳问题占比 18%，典型的问句形式如：“What are the mascots of the teams participating in the turkish handball super league?”。
该数据集的构建，先利用一部分 SPARQL 模板，一些种子实体和部分关联属性通过 DBpedia 生成具体的 SPARQL，然后再利用定义好的问句模板半自动利用 SPARQL 生成问句，最后通过众包形成最后的标注问题。
特点：通过SPARQL自动构建再人工修正。
数据格式：json格式，如下图。
在这里插入图片描述

论文：Lc-quad: A corpus for complex question answering over knowledge graphs
数据集地址：https://github.com/AskNowQA/LC-QuAD

任务型对话数据集

CrossWOZ数据集

语言：中文
相比于之前的任务导向对话数据集(特别是MultiWOZ），CrossWOZ有三大特点：

在对话中，用户在某个领域的选择可能会影响到与之相关的领域的选择。如上面的这个例子，用户选择了北京欢乐谷作为景点领域的结果，那么之后选择的酒店就要在它附近。不同的景点选择会对酒店产生不同的约束。这种跨领域约束随着对话的进行而具体化，需要对话双方都能对上下文有更好的理解，因而更具有挑战性。
这是第一个中文大规模多领域任务导向对话数据集，包含 6K 个对话，102K 个句子，涉及 5 个领域（景点、酒店、餐馆、地铁、出租）。平均每个对话涉及 3.2 个领域，远超之前的多领域对话数据集，增添了对话管理的难度。
标注信息全面，可以用于研究任务导向对话系统中各个方面。除了提供对话双方的对话意图、系统端的对话状态这些信息之外，还额外提供了每轮用户端的对话状态。用户端状态记录了目标的完成情况，每轮根据系统回复动态更新，可用于研究用户模拟器的搭建。

论文： CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue Dataset
数据集链接：https://github.com/thu-coai/CrossWOZ

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/479994