赞
踩
在1到1/3的句子长度中,随机生成一个数字a。用a个标点符号在句子中随机插入。这些标点符号为:['.', ',', '!', '?', ';', ':']
。
理论基础:对于文本分类来说,EDA方法,如论是同义词替换,还是随机替换、随机插入、随机删除,都改变了原始文本的序列信息;而AEDA方法,只是插入标点符号,对于原始数据的序列信息修改不明显。
代码:
PUNCTUATIONS = ['.', ',', '!', '?', ';', ':'] PUNC_RATIO = 0.3 def insert_punctuation_marks(sentence, punc_ratio=PUNC_RATIO): words = sentence.split(' ') new_line = [] q = random.randint(1, int(punc_ratio * len(words) + 1)) qs = random.sample(range(0, len(words)), q) for j, word in enumerate(words): if j in qs: new_line.append(PUNCTUATIONS[random.randint(0, len(PUNCTUATIONS)-1)]) new_line.append(word) else: new_line.append(word) new_line = ' '.join(new_line) return new_line
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。