当前位置:   article > 正文

NLP_文本数据增强_5(代码示例)

NLP_文本数据增强_5(代码示例)

学习目标

  • 了解文本数据增强的作用.
  • 掌握实现常见的文本数据增强的具体方法.

  • 常见的文本数据增强方法:

    • 回译数据增强法

1 回译数据增强法

  • 回译数据增强目前是文本数据增强方面效果较好的增强方法, 一般基于google翻译接口, 将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言, 即可认为得到与与原语料同标签的新语料, 新语料加入到原数据集中即可认为是对原数据集数据增强.

  • 回译数据增强优势:

    • 操作简便, 获得新语料质量高.
  • 回译数据增强存在的问题:

    • 在短文本回译过程中, 新语料与原语料可能存在很高的重复率, 并不能有效增大样本的特征空间.
  • 高重复率解决办法:

    • 进行连续的多语言翻译, 如: 中文→韩文→日语→英文→中文, 根据经验, 最多只采用3次连续翻译, 更多的翻译次数将产生效率低下, 语义失真等问题.
  • 回译数据增强实现:

  1. # 导入对应的工具包
  2. from google_trans_new import google_translator
  3. # 实例化翻译对象
  4. translator = google_translator()
  5. # 进行第一次翻译, 目标语言是韩语
  6. texts= ['这家价格很便宜', '这家价格很便宜']
  7. tra_list= []
  8. for text in texts:
  9. ko_res= translator.translate(text, lang_src='zh-cn', lang_tgt='ko')
  10. tra_list.append(ko_res)
  11. # 打印中间结果
  12. print('中间结果是:')
  13. print(tra_list)
  14. # 进行第二次翻译, 目标语言是汉语
  15. cn_list = []
  16. for text in tra_list:
  17. cn_res = translator.translate(text, lang_src='ko', lang_tgt='zh-cn')
  18. cn_list.append(cn_res)
  19. # 打印最后的结果
  20. print("最后的结果是:")
  21. print(cn_list)

输出结果展示:

  1. 中间翻译结果:
  2. ["이 가격은 매우 싼 ", "이 가격은 매우 싼"]
  3. 回译得到的增强数据:
  4. ["这个价格非常便宜""这个价格很便宜"]

                1.使用find命令在服务器上找到对应的google_trans_new.py文件,即: find / -name 'google_trans_new.py'

                

                2.将google_trans_new.py文件中151行的**response = (decoded_line + ']')修改为**response = decoded_line, 然后保存退出即可.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/195714
推荐阅读
相关标签
  

闽ICP备14008679号