赞
踩
近日,阿里云重磅推出了首个中文科学文献数据集——CSL(Chinese Scientific Literature),为自然语言处理(NLP)领域带来了全新的研究资源。该数据集涵盖了396,209篇来自国家科技资源共享服务工程技术研究中心的高质量中文核心期刊论文元信息,时间跨度自2010年至2020年,内容包括每篇论文的标题、摘要及关键词,并依据中文核心期刊目录对学科和门类进行了细致的标注,共划分为13个一级门类标签和67个二级学科标签。
CSL数据集不仅规模庞大,且其丰富多元的内容使其在多个NLP任务中具有广泛的应用潜力。用户可以利用此数据集作为预训练语料,进行如文本摘要生成、关键词预测以及精细化的文本分类等多种任务的研究和开发。
为了推动中文科学文献NLP研究的发展,本项目精心设计了一系列基准测评任务。从CSL数据集中抽样出10,000条记录,按照0.8 : 0.1 : 0.1的比例分配为训练集、验证集和测试集,以保证模型训练和评估的公正性和有效性。测评任务包括:
文本摘要任务:输入论文摘要,模型需预测对应的论文标题,例如,基于摘要“一种适用于机载InSAR系统的联合定标算法”,预测得到标题为“基于加权最优化模型的机载InSAR联合定标算法”。
关键词生成任务:输入论文摘要和标题,模型将生成对应的关键主题词汇,例如,通过摘要和标题分析,预测得到关键词“曲线桥_箱形梁_偏心支承_设计_经验公式”。
论文门类分类任务:仅凭论文标题,即可识别出论文所属的一级门类,如根据标题“基于模糊C均值聚类的流动单元划分方法”预测其属于“工学”门类。
论文学科分类任务:通过对论文摘要的理解,精确到二级学科层次,比如,基于摘要内容预测论文“某铁矿选矿厂降低铁精矿含硫量的方法研究”归属于“矿业工程”学科。
这些丰富的测评任务和精细的数据集无疑将极大地促进中文科学文献领域的NLP技术进步,为科研人员提供有力的数据支持,同时也将有助于提升各类文本处理工具的智能化水平和精准度。
访问地址:computing-nest
相比于其他平台,计算巢数据集对我们个人使用者来说还有一个好处,那就是可以非常方便的反馈自己想要的数据集。计算巢官方提供了一个钉钉群,我们可以加入到群中直接跟阿里云官方人员进行交流,他们会非常迅速的帮我们更新数据集,之前我一直想要的wiki数据跟他们反馈后几个小时就给我上架了,速度感人~泪目~
我把官方钉钉群放在后面了,有需要的小伙伴快和我一起进去白嫖吧~(谁能拒绝白嫖呢~)
钉钉群链接:链接~戳我戳我
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。