当前位置:   article > 正文

自然语言处理(NLP)-下游任务&数据集:语言模型、机器翻译、问答、文本分类、情感分析、文本生成、自动摘要、命名实体识别、阅读理解、自然语言推理、信息提取、词性标注、共指消解、实体链接【>200项】_自然语言处理数据集

自然语言处理数据集

一、高频任务

Language Modelling【语言模型】

Machine Translation【机器翻译】

Question Answering【问答】

Text Classification【文本分类】

Sentiment Analysis【情感分析】

Text Generation【文本生成】

Text Summarization【自动摘要】

Named Entity Recognition【命名实体识别】

Part-Of-Speech Tagging【词性标注】

Reading Comprehension【阅读理解】

Relation Extraction【关系抽取】

Natural Language Inference【自然语言推理】

Semantic Textual Similarity【语义文本相似度】

Natural Language Understanding【自然语言理解】

Dialogue【对话】

Event Extraction【事件提取】

Emotion Recognition【情绪识别】

Chatbot【聊天机器人】

Semantic Parsing【语义分析】

Dependency Parsing【依赖解析】

Sentence Pair Modeling【句子对建模】

Coreference Resolution【共指消解】

Entity Linking【实体链接】

Word Sense Disambiguation【词义消歧】

Entity Alignment【实体对齐】

二、中频任务

Sentence Embeddings【句子嵌入】

Information Extraction【信息提取】

Topic Models【主题模型】

Cross-Lingual【跨语言】

Question Generation【问题生成】

Semantic Role Labeling【语义角色标注】

Word Similarity【词语相似性】

Optical Character Recognition【光学字符识别】

Visual Question Answering【视觉问答】

Information Retrieval【信息检索】

Data Augmentation【数据扩充】

2D Human Pose Estimation【二维人体姿态估计】

Contrastive Learning【对比学习】

Active Learning【主动学习】

Relational Reasoning【关系推理】

Open Information Extraction【开放信息抽取】

Relation Classification【关系分类】

Abuse Detection【滥用检测】

Data Mining【数据挖掘】

Fake News Detection【假新闻检测】

Open-Domain Question Answering【开放域问答】

Tokenization【符号化】

Language Identification【语言识别】

Code Generation【代码生成】

Hate Speech Detection【仇恨语音检测】

Grammatical Error Correction【语法错误纠正】

Constituency Parsing【选区分析】

Slot Filling【插槽填充】

Bias Detection【偏差检测】

Ad-Hoc Information Retrieval【特设信息检索】

Dialogue Understanding【对话理解】

Intent Detection【意图检测】

Text Matching【文本匹配】

Language Acquisition【语言习得】

Morphological Analysis【形态分析】

Text Simplification【文本简化】

Paraphrase Identification【释义识别】

Chunking【大块】

Shallow Syntax【浅语法】

Word Alignment【词对齐】

Chinese【中国人】

Lemmatization【柠檬化】

Entity Typing【实体类型】

Stance Detection【姿态检测】

Multi-Label Text Classification【多标签文本分类】

Document Text Classification【文档文本分类】

Text-To-Speech Synthesis【文本到语音合成】

Intent Classification【意图分类】

Information Seeking【信息查询】

Multimodal Deep Learning【多模式深度学习】

Document Ranking【文件排名】

Aspect-Based Sentiment Analysis【基于方面的情绪分析】

Entity Disambiguation【实体消歧】

Cross-Lingual Transfer【跨语言迁移】

Fact Verification【事实核实】

Linguistic Acceptability【语言可接受性】

Discourse Parsing【语篇分析】

Data-to-Text Generation【数据到文本生成】

Source Code Summarization【源代码摘要】

AMR Parsing【AMR解析】

Graph-to-Sequence【图形到序列】

Sarcasm Detection【讽刺检测】

Abusive Language【辱骂性语言】

Entity Extraction using GAN【基于GAN的实体提取】

Keyphrase Extraction【关键词提取】

Conversational Response Selection【会话反应选择】

Knowledge Base Population【知识库人口】

Open-Domain Dialog【打开域对话框】

Sentence Summarization【句子摘要】

De-identification【去识别】

Morphological Inflection【形态变化】

Morphological Tagging【形态标记】

Speech-to-Text Translation【语篇翻译】

Text Clustering【文本聚类】

Conversational Search【会话搜索】

Keyword Extraction【关键词提取】

Subjectivity Analysis【主观性分析】

Temporal Processing【时间处理】

Entity Resolution【实体解析】

Protein Folding【蛋白质折叠】

Semantic Composition【语义构成】

Word Sense Induction【词义归纳】

Authorship Verification【作者身份验证】

Phrase Grounding【短语接地】

Question Similarity【问题相似性】

Persian Sentiment Analysis【波斯情绪分析】

Negation Detection【否定检测】

Weakly Supervised Classification【弱监督分类】

Conversational Response Generation【会话反应生成】

KG-to-Text Generation【KG到文本生成】

Lexical Simplification【词汇简化】

Nested Mention Recognition【嵌套提及识别】

Rumour Detection【谣言检测】

Decipherment【破译】

Dialogue Evaluation【对话评价】

Humor Detection【幽默检测】

Lexical Normalization【词汇规范化】

Clinical Concept Extraction【临床概念提取】

Lexical Analysis【词汇分析】

Relationship Extraction (Distant Supervised)【关系提取(远程监控)】

Review Generation【评论生成】

Propaganda detection【宣传侦查】

Cross-Lingual Document Classification【跨语言文献分类】

Passage Re-Ranking【通道重新排序】

Sentence Ordering【句子顺序】

Multimodal Machine Translation【多模态机器翻译】

Arabic Text Diacritization【阿拉伯文变音】

CCG Supertagging【CCG超级标记】

Extreme Summarization【极端概括】

Meeting Summarization【会议纪要】

Aggression Identification【攻击性识别】

Automated Essay Scoring【自动论文评分】

Clickbait Detection【点击诱饵检测】

Text Attribute Transfer【文本属性转移】

Vietnamese Word Segmentation【越南语分词】

Abstractive Text Summarization【摘要文本摘要】

Speculation Detection【推测检测】

Taxonomy Learning【分类学习】

Arabic Sentiment Analysis【阿拉伯情绪分析】

Attribute Value Extraction【属性值提取】

Complex Word Identification【复合词识别】

Cross-Lingual Bitext Mining【跨语言双文本挖掘】

Dialog Act Classification【对话行为分类】

Hypernym Discovery【缩略词发现】

Key Information Extraction【关键信息提取】

Morphological Disambiguation【形态消歧】

Text Compression【文本压缩】

Thai Word Segmentation【泰语分词】

Hope Speech Detection【希望语音检测】

Recognizing Emotion Cause in Conversations【对话中的情感成因识别】

Table annotation【表注释】

Argument Mining【挖掘论点】

Dialogue Rewriting【对话改写】

Gender Bias Detection【性别偏见检测】

Meme Classification【模因分类】

Semantic Retrieval【语义检索】

Table-based Fact Verification【基于表的事实验证】

Table-to-Text Generation【表到文本生成】

Anaphora Resolution【指代消解】

Abstract Argumentation【抽象论证】

Action Parsing【动作解析】

Author Attribution【作者归属】

Chinese Spell Checking【中文拼写检查】

Cognate Prediction【同源预测】

Memex Question Answering【Memex问答】

Misogynistic Aggression Identification【厌女攻击识别】

Natural Language Transduction【自然语言转导】

News Annotation【新闻注释】

Record linking【记录链接】

Sentence Compression【句子压缩】

Text-to-Image Generation【文本到图像生成】

Turning Point Identification【转折点识别】

Twitter Event Detection【Twitter事件检测】

Chinese Spelling Error Correction【中文拼写错误更正】

Clinical Assertion Status Detection【临床断言状态检测】

Commonsense Reasoning for RL【RL的常识推理】

Context Query Reformulation【上下文查询重新格式化】

Crowdsourced Text Aggregation【众包文本聚合】

Document Summarization【文件摘要】

Domain Labelling【域标记】

Emergent communications on relations【紧急关系沟通】

Extractive Tags Summarization【抽取标签摘要】

Intent Discovery【意图发现】

Job Prediction【工作预测】

Joint NER and Classification【联合神经网络与分类】

Logical Reasoning Reading Comprehension【逻辑推理与阅读理解】

Multi-Grained Named Entity Recognition【多粒度命名实体识别】

Multilingual Machine Comprehension in English Hindi【英语印地语中的多语言机器理解】

Multimodal Text Prediction【多模态文本预测】

Overlapping Mention Recognition【重叠提及识别】

Phrase Ranking【短语排名】

Phrase Tagging【词组标注】

Phrase Vector Embedding【短语向量嵌入】

Poem meters classification【诗歌韵律分类】

Polyphone disambiguation【复音消歧】

Query Wellformedness【查询良构性】

Question-Answer categorization【问答分类】

Reliable Intelligence Identification【可靠的情报鉴定】

Sign Language Production【手语制作】

Syntax Representation【语法表示】

Text Effects Transfer【文本效果转移】

Text Style Transfer【文本样式转换】

Text-to-video search【文本到视频搜索】

Vietnamese Datasets【越南数据集

Web Page Tagging【网页标签】

Zero-Shot Machine Translation【零镜头机器翻译】

incongruity detection【不一致性检测】

multi-word expression embedding【多词表达式嵌入】

multi-word expression sememe prediction【多词表达义素预测】

Automated Writing Evaluation【自动写作评估】

Automatic Writing【自动书写】

Complaint Comment Classification【投诉意见分类】

Counterspeech Detection【反语音检测】

Document Classification【文件分类】

Extractive Text Summarization【抽取文本摘要】

Job classification【职务分类】

Meme Captioning【模因字幕】

Relation Mention Extraction【关系抽取】

Twitter Sentiment Analysis【推特情绪分析】

Vietnamese Parsing【越南语句法分析】




参考资料
https://paperswithcode.com/
常用数据集地址
斯坦福自然语言推理数据集:SNLI
阅读理解数据集:RACE (Reading Comprehension Dataset)
完形填空数据集
文本蕴含数据集:scitail
NLP常见任务
General Language Understanding Evaluation (GLUE) benchmark

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/700307
推荐阅读
相关标签
  

闽ICP备14008679号