当前位置:   article > 正文

nlp中的数据清洗

nlp中的数据清洗

在nlp任务,肯定会遇到很多无意义的词和句子

对于词,我们可以用停用词表去除

对于句子,我们该怎样去掉呢

  1. 首先自身标注一些数据,如url,还有一些其他无意义的句子
  2. 使用无监督模型将句子转换成向量
  3. 当文本输入时,去掉与这些句子相似的句子

当然,这样的计算开销可能变得很大,必要的时候我们可以使用lsh或者Faiss来减少计算开销

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/619912
推荐阅读
相关标签
  

闽ICP备14008679号