CLUE：中文语言理解测评基准及NLP中文数据集_clue数据集

作者：笔触狂放9 | 2024-03-05 03:34:43

踩

clue数据集

1 简介

CLUE：A Chinese Language Understanding Evaluation Benchmark。中文语言理解测评基准

英语有GLUE、SuperGLUE，各种预训练模型，如BERT，在其上进行评估；CLUE类比GLUE，应该是中文第一个大规模的语言评估基准。

CLUE：（1）该评估基准覆盖了9种句子分类、机器阅读理解任务，不同的困难水平、不同的大小和形式；（2）提供了一个大的预训练中文语库，214G文本，约760亿中文词语；（3）提供了一个语言学家创建的诊断评估数据集；（4）提供了友好的工具、自动评估在线排行榜。

为什么我们需要一个中文任务的基准测试？

首先，中文是一个大语种，有其自身的特定、大量的应用。

如中文使用人数近14亿，是联合国官方语言之一，产业界有大量的的朋友在做中文的任务。
中文是象形文字，有文字图形；字与字之间没有分隔符，不同的分词(分字或词)会影响下游任务。

其次，相对于英文的数据集，中文的公开可用的数据集还比较少。

很多数据集是非公开的或缺失基准测评的；多数的论文描述的模型是在英文数据集上做的测试和评估，那么对于中文效果如何？不得而知。

再次，语言理解发展到当前阶段，预训练模型极大的促进了自然语言理解。

不同的预训练模型相继产生，但不少最先进(state of the art)的模型，并没有官方的中文的版本，也没有对这些预训练模型在不同任务上的公开测试，
导致技术的发展和应用还有不少距离，或者说技术应用上的滞后。
那么，如果有一个中文任务的基准测试，包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展，能缓解当前中文任务的一些问题，并促进相关应用的发展。

开源地址：https://github.com/CLUEbenchmark/CLUE

2 评测任务

下面9个。

AFQMC 蚂蚁金融语义相似度 Ant Financial Question Matching Corpus
TNEWS’ 今日头条中文新闻（短文本）分类 Short Text Classificaiton for News
IFLYTEK’ 长文本分类 Long Text classification
OCNLI 中文原版自然语言推理 Original Chinese Natural Language Inference
CLUEWSC2020: WSC Winograd模式挑战中文版，新版2020-03-25发布
CSL 论文关键词识别 Keyword Recognition
CMRC2018 简体中文阅读理解任务 Reading Comprehension for Simplified Chinese
ChID 成语阅读理解填空 Chinese IDiom Dataset for Cloze Test
C3 中文多选阅读理解 Multiple-Choice Chinese Machine Reading Comprehension

3 公开的预训练数据集

214G文本，约760亿中文词语。包括下面三个子语库：
CLUECorpus2020-small：14G
CLUECorpus2020：100G
CLUEOSCAR：100G

4 实验、开源代码

也提供了下面几个模型的开源代码，评测结果如下：
在这里插入图片描述

5 CLUE诊断数据集

下面9中语言类型：

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/189469