赞
踩
大规模的文本去重是目前比较热门的一个技术,由于大模型的兴起,更多的高质量数据集也是大家迫切需要的。
关于如何进行文本去重?
直观的方法首先是利用Python正则表达式进行去重。 推荐学习:1. re — 正则表达式操作 2. 正则表达式 - 教程
然后是利用文本之间的相似度进行去重。 这里主要讲第二种。 推荐学习:1. 张振虎大佬的博客 2. Github的实现源码 3.