当前位置:   article > 正文

LCQMC 相似度数据集预处理(分句)_lcqmc数据集

lcqmc数据集

原始数据集样式
在这里插入图片描述处理后的结果
在这里插入图片描述
代码实现

# 读取数据,指定'r'读取,指定目录(data/LCQMC.test.data原始文件目录)
sentence_list = [line.strip() for line in open('data/LCQMC.test.data', "r", encoding='utf-8').readlines()]

# 循环并处理每条数据
new_list = []
for count in sentence_list:
    # 获取分割下标
    index = count.find('	')
    new_list.append(count[:index])

# 成功输出
# print(new_list)         

# 打开需要写入的文件, 指定'w'写入,指定目录(需要写入的新文件目录 data/LCQMC.txt)
f = open("data/LCQMC.txt","w")

# 遍历每一条数据并写入
for new_count in new_list:
    f.write(new_count)
    # 写入一条之后换行
    f.write('\n')
# 关闭文件
f.close

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/306409
推荐阅读
相关标签
  

闽ICP备14008679号