赞
踩
读了bert的论文大概知道bert可以做下面几个事情:
一、文本分类
二、序列标注任务,比如分词 实体识别 词性标注
三、句子关系判断 比如QA,自然语言推理
不能做的事情
一、机器翻译
. MultiNLI(multi-genre natural language inference,文本蕴含识别)
文本间的推理关系,又称为文本蕴含关系。样本都是文本对,第一个文本M作为前提,如果能够从文本M推理出第二个文本N,即可说M蕴含N,M->N。两个文本关系一共有三种entailment(蕴含)、contradiction(矛盾)、neutral(中立)
QQP(quora question pairs,文本匹配)
判断两个问题是不是同一个意思,即是不是等价的。属于分类任务
QNLI(question natural language inference,自然语言问题推理)
是一个二分类任务。正样本为(question,sentence),包含正确的answer;负样本为(question,sentence),不包含正确的answer。
SST-2(the stanford sentiment treebank,斯坦福情感分类树)
分类任务。
CoLA(the corpus of linguistic acceptability,语言可接受性语料库)
分类任务,预测一个句子是否是acceptable。
STS-B(the semantic textual similarity benchmark,语义文本相似度数据集)
样本为文本对,分数为1-5,用来评判两个文本语义信息的相似度。
MRPC(microsoft research paraphrase corpus,微软研究释义语料库)
样本为文本对,判断两个文本对语音信息是否是等价的
RTE(recognizing textual entailment,识别文本蕴含关系)
与MNLI相似,只不过数据集更少
WNLI(winograd NLI,自然语言推理)
小的数据集
SQuAD(the standFord question answering dataset,斯坦福问答数据集)
question,从phrase中选取answer。
NER(named entity recognition,命名实体识别)
SWAG(the situations with adversarial generations dataset,)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。