赞
踩
当在一些任务中需要大量数据,但是实际上数据量不足时,可以考虑使用数据增强的方式增加数据量
数据增强主要有两种方法:
法一:简单数据增强(Easy Data Augmentation,EDA)
(1) 同义词替换:从句子中随机选择不属于停用词的单词,并选择其同义词替换它们
(2) 随机插入:从句子中随机选择不属于停用词的单词,随机取出它们的同义词,并把它们随机插入句子中的某个位置
(3) 随机交换:随机选择句子中两个单词,并交换他们的位置
(4) 随机删除:以一定的概率随机删除句子中的某个单词
法二:回译
用机器翻译把一段中文翻译成另一种语言,然后再翻译回中文。回译的方法不仅有类似同义词替换的能力,它还具有在保持原意的前提下增加或移除单词并重新组织句子的能力
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。