LCQMC 相似度数据集预处理（分句）_lcqmc数据集

作者：羊村懒王 | 2024-03-25 02:30:46

踩

lcqmc数据集

原始数据集样式
在这里插入图片描述处理后的结果

代码实现

# 读取数据，指定'r'读取，指定目录（data/LCQMC.test.data原始文件目录）
sentence_list = [line.strip() for line in open('data/LCQMC.test.data', "r", encoding='utf-8').readlines()]

# 循环并处理每条数据
new_list = []
for count in sentence_list:
    # 获取分割下标
    index = count.find('	')
    new_list.append(count[:index])

# 成功输出
# print(new_list)         

# 打开需要写入的文件, 指定'w'写入，指定目录（需要写入的新文件目录 data/LCQMC.txt）
f = open("data/LCQMC.txt","w")

# 遍历每一条数据并写入
for new_count in new_list:
    f.write(new_count)
    # 写入一条之后换行
    f.write('\n')
# 关闭文件
f.close

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/306409