赞
踩
各位NLPer,大家好!
如果你还在从事中文分词领域的相关研究,你一定会发现,随着时间推移,中文分词的研究越来越少,BERT出现后,以字为粒度的方法盛行,有关中文分词的论文已经很少出现在期刊、顶会之中。
研究领域小众是常事,科研也从不应该盲目扎堆于热点技术之中,但是目前中文分词相关研究,已经许久没有新数据可用,旧数据也逐渐坏链,github频频登陆失败,更别提下载语料,这些都让神经网络相关研究无从下手。
因此,我总结了目前公开的可用于分词的语料库,将其分享出来,以供各位学者参考。
特别感谢:@何晗 本文原始数据皆出自其论文的github,使用请谨遵要求,标明出处。
[1] He H , Wu L , Yan H , et al. Effective Neural Solution for Multi-Criteria Word Segmentation[C]. Proceedings of the Second International Conference on Smart Computing and Informatics, 2018
语料来自:
由于语料库来自五湖四海,数据格式并不同,还有两个语料库为繁体,也有许多命名实体识别或词性标注的标签(NER恐成序列标注类任务唯一拿得出手的任务,CWS和POS感觉都没人研究了),我做了统一处理,操作如下:
下载链接:
链接:https://pan.baidu.com/s/1CFJ_u173pT5WIi8Q_KJHEg?pwd=5fj3
提取码:5fj3
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。