当前位置:   article > 正文

《tensorflowNLP》传统自然语言处理方法_传统词频处理缺点

传统词频处理缺点

经典NLP的一般方法
在这里插入图片描述
传统的特征工程技术:

1)词袋:根据词频创建特征表示。
缺陷:没有保留单词顺序,丢失上下文信息。
2)n-gram:它将文本分解为由n个字母(单词)组成的较小元素,字母级别表示的优点是在大型语料库上词汇量小得多
在这里插入图片描述
语言建模任务的经典方法:
在这里插入图片描述
传统方法的缺点:

  1. 传统NLP的预处理步骤迫使我们对潜在有用信息进行取舍权衡,以便通过减少词汇量来使学习成为可能。
  2. 需要人工手动设计特征工程。繁琐且需要领域知识。
  3. 需要借助各种外部资源才能表现良好,比如存储在大型数据库中的人工创建的信息。
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号