赞
踩
作者:禅与计算机程序设计艺术
自然语言处理(Natural Language Processing, NLP)是计算机科学领域的一个重要方向,是一门融语言学、计算机科学、数学于一体的科学。其中文本处理(Text Processing)是NLP的一个重要子领域。文本处理的任务可以包括但不限于信息提取、语言建模、文本挖掘、文本分类、文本生成等。许多高质量的NLP模型都需要大量的训练数据,这些数据往往都是公开的或者商业机构收集的。这里我将介绍一些经典的NLP任务中的数据集,希望能够给读者带来启发,从而对自己的NLP模型进行更进一步的优化。
文本分类是NLP的一个基础性任务,其目的是将待分类文档分配到一个或多个类别中。一般来说,文本分类的数据集主要分为以下三种类型:
文本分类数据集通常由如下三个部分组成:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。