当前位置:   article > 正文

机器阅读理解那些事儿_阅读理解多选数据集

阅读理解多选数据集

今日,“机器之心”公众号刷爆了超强小姐姐陈丹琦的文章,笔者前两天也刚看了小姐姐的论文,当时无意中点开开源的github链接,发现小姐姐一路绿灯的github也是十分敬佩!
在这里插入图片描述
再放一张小姐姐的主页图片,再次膜拜下~
在这里插入图片描述
小姐姐做的方向是机器阅读理解和智能问答(QA),博主也看了一段时间的该方向论文,现在来聊一聊机器阅读理解中的世界~
阅读理解,其实我们大家从小到大都在做,从语文阅读理解到英语阅读理解,这类题型也伴随了我们的整个学生生涯。
那么所谓机器阅读理解,一样哒~就是让计算机来理解文章,并且来回答相应的问题。
在深度学习出现之前,大多机器阅读理解都是通过机器学习抽取式来进行抽取答案的,深度学习出现之后,尤其斯坦福大学公布SQuAD阅读理解数据集后,很多公司、高校都开始争先恐后地去刷榜,也极大促进了机器阅读理解的发展。

机器阅读理解的发展

起初,阅读理解数据集是完型填空式、简单对话抽取式,代表的数据集有CNN/Daily Mail和Children Book Test(CBT)数据集。
但这些数据集比较小,很快被当时的SOTA模型做到了top值,后来斯坦福发布了SQuAD数据集,也掀起了一波刷榜高潮,国内外大公司、高校纷纷提交了不错的成绩,极大促进了机器阅读理解的发展。以上数据集都是类似于考试中的阅读理解题目,答案就在文中~
后来出现了开放式阅读理解数据集TriviaQA以及阅读理解多选题数据集RACE等。开放式阅读理解数据集,问题的答案不一定固定在文中,需要对多篇文章进行理解从而回答。而阅读理解多选题数据集就是我们的中考、高考英语考试的阅读理解题目,有多个选项,需要选出最合适的一项。
在数据集公布的同时,各个阅读理解模型也纷纷发表出来,BiDAF、R-Net、AoA等等,在谷歌Bert发布之后,各大榜单前排也纷纷使用上了Bert来上分。
下图是近年来机器阅读理解发展的过程:
在这里插入图片描述

各大阅读理解榜单

1.SQuAD榜单
(https://rajpurkar.github.io/SQuAD-explorer/)
2.CoQA榜单
(https://stanfordnlp.github.io/coqa/)
3.Who-did-What榜单(https://tticnlp.github.io/who_did_what/leaderBoard.html)
4.HotpotQA(火锅)榜单
(https://hotpotqa.github.io/)

最后分享下清华大学推荐的阅读理解论文列表(https://github.com/thunlp/RCPapers)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/633918
推荐阅读
相关标签
  

闽ICP备14008679号