当前位置:   article > 正文

加入标点符号进行增强,仅适用于文本分类_无标点的文本序列进行符号添加的方法

无标点的文本序列进行符号添加的方法

在1到1/3的句子长度中,随机生成一个数字a。用a个标点符号在句子中随机插入。这些标点符号为:['.', ',', '!', '?', ';', ':']
理论基础:对于文本分类来说,EDA方法,如论是同义词替换,还是随机替换、随机插入、随机删除,都改变了原始文本的序列信息;而AEDA方法,只是插入标点符号,对于原始数据的序列信息修改不明显。
代码:

PUNCTUATIONS = ['.', ',', '!', '?', ';', ':']
PUNC_RATIO = 0.3


def insert_punctuation_marks(sentence, punc_ratio=PUNC_RATIO):
  words = sentence.split(' ')
  new_line = []
  q = random.randint(1, int(punc_ratio * len(words) + 1))
  qs = random.sample(range(0, len(words)), q)

  for j, word in enumerate(words):
    if j in qs:
      new_line.append(PUNCTUATIONS[random.randint(0, len(PUNCTUATIONS)-1)])
      new_line.append(word)
    else:
      new_line.append(word)
  new_line = ' '.join(new_line)
  return new_line
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

引用:EMNLP2021之AEDA:一种更简单的文本分类数据增强技术

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/353674
推荐阅读
相关标签
  

闽ICP备14008679号