当前位置:   article > 正文

NLP中数据增强的方法_数据量太少要做数据增强nlp

数据量太少要做数据增强nlp

为什么使用数据增强

当在一些任务中需要大量数据,但是实际上数据量不足时,可以考虑使用数据增强的方式增加数据量

数据增强的方法

数据增强主要有两种方法:
法一:简单数据增强(Easy Data Augmentation,EDA)
(1) 同义词替换:从句子中随机选择不属于停用词的单词,并选择其同义词替换它们
(2) 随机插入:从句子中随机选择不属于停用词的单词,随机取出它们的同义词,并把它们随机插入句子中的某个位置
(3) 随机交换:随机选择句子中两个单词,并交换他们的位置
(4) 随机删除:以一定的概率随机删除句子中的某个单词
法二:回译
用机器翻译把一段中文翻译成另一种语言,然后再翻译回中文。回译的方法不仅有类似同义词替换的能力,它还具有在保持原意的前提下增加或移除单词并重新组织句子的能力

参考文章

参考文章1
参考文章2

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/392712
推荐阅读
相关标签
  

闽ICP备14008679号