赞
踩
目录
摘要
【目的】 从主题表征词抽取和主题句功能分类两个维度,设计基于潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和语步标注的主题分析方法,并探究方法的有效性与实用性。【方法】 采用LDA模型进行主题识别,利用Sentence Transformer模型对主题词短语进行提取,同时构建句子功能分类模型进行语步标注,识别文本句子功能类型,从句子功能维度对主题内容进行细粒度分析。【结果】 以农业资源与环境领域论文数据为例进行实证研究,结果表明,相比传统LDA模型,经过提取主题词短语后,识别出的主题表征词可读性和解释性更强,进一步结合语步标注后,主题句子内容分析更为深入。【局限】 主题短语表征词扩展内容存在含义相同问题,有待进一步改进表征词的多样性,以整合相同含义的主题短语表征词。【结论】 本研究所提方法在主题表征词抽取、主题内容分析方面具有较好的效果,可以提高文本主题挖掘的效率与深度。
关键词: LDA模型; 语步标注; 主题短语; 主题分析
随着数据科学的不断创新与发展,论文、专利、基金项目等学术研究载体数量迅速增长,内容丰富且深入,在研究内容中蕴含了大量高学术价值的知识,涉及专家学者的研究观点、研究方法、研究成果等重要信息。面对海量学术信息,科技情报工作者、领域科研人员仅凭人工处理这些信息,并主观分析解读这些信息资源,不仅耗时耗力,而且难以全面、准确地识别出研究主题,获取有价值的信息。如何利用新兴信息技术对海量科技信息进行快速有效地主题内容识别,辅助科学知识发现,提高科研工作效率是目前迫切需要解决的关键问题。
主题识别的目的是对大规模的数据信息进行处理和分析,从而快速抽取其中的研究主题,并使用表征词对关键性的信息进行表示[1]。目前国内外学者在主题识别方法上开展了深入研究,主要集中在共词分析和主题模型两个方向。通过构建词语共现网络,利用复杂网络算法识别研究主题;通过机器学习算法挖掘隐藏在文档中的主题表征词信息。现有研究主要通过抽取词汇并计算词汇间关系强度来实现,然而单独使用缺乏上下文语境的词汇作为主题表征词,很难准确揭示主题含义。短语相比词汇更能表达丰富的语义信息,易于理解和分析。因此,从主题表示形式角度出发,构建生成短语结构表征词的主题识别新方法成为迫切需要。
另外,主题识别完成的同时,如何准确地揭示研究主题内容同等重要,而相关研究多侧重于主题识别算法的改进、基于主题词、时间跨度进行主题演化及热点分布等研究,较少针对主题所属的原始文本信息进行细粒度挖掘。文本句子语步结构识别可以从语义角度对内容进行划分类别,能够有效找出表达文本中研究目的、研究方法、研究结果以及研究结论的句子。通过对句子的深入挖掘,将有助于对主题进行语步结构的区块划分,对于揭示文本深层、细粒度的科学知识具有重大意义。
因此,本文基于潜在狄利克雷分布模型(Latent Dirichlet Allocation, LDA)进行主题识别,对LDA主题识别结果的主题表征词进行扩展,构建表征词短语集合作为候选主题短语,利用Sentence Transformer预训练模型,对候选短语和主题文本集合进行语义相似度计算,确定主题表征词扩展短语。同时,将主题文本切分成句子集合,通过训练的BERT分类模型,标注主题句子功能标签(研究背景、研究目标、研究方法、结果、结论),对主题内容功能结构层面进行深度分析。在此基础上,选择农业资源环境领域论文数据进行实证研究,对主题内容进行细粒度、多维度的解读与分析。
目前,主题识别主要包含基于共词分析法和基于主题模型分析。基于共词分析方法由Callon等[2]提出,利用在同一篇文献中词汇对的共同出现频次,表示词对之间的亲疏关系,进而推断出该语料库中的学科和主题之间的结构关系[1]。众多学者在这方面进行了诸多研究,如郭崇慧、李锋等[3-4]通过统计领域文献中的高频关键词构建共现矩阵,同时结合互信息概念和AP聚类算法,进行领域主题识别分析;闫涛[5]在基于VSM改进的共现潜在语义向量空间模型(CLSVSM)基础上,引入特征词词频信息,再将引入的词频作为权重赋予CLSVSM的共现强度,最终构建特征加权的CLSVSM模型,提升文本聚类性能;田鹏伟等[6]通过构建专利文本共现网络,采用OVL算法及加权运算对异构信息网络进行融合,基于融合后的网络开展专利技术主题识别。丁敬达等[7]在运用共词分析进行主题聚类的基础上,通过Word2Vec加权向量分别计算文献向量与聚类主题向量,并基于余弦相似度进行文献与主题的语义匹配,实现将相关文献匹配至对应主题。基于主题模型的分析方法用于对文本中潜在的语义关系和主题信息进行挖掘,当下主流方法是潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)模型,作为非监督机器学习方法,受到学者们广泛关注与使用。如张琴等[8]通过建立频繁短语挖掘算法,设计候选短语重要度计算方法,结合“短语袋”主题模型PhraseLDA进行主题挖掘。Tajbakhsh等[9]结合了词语共现提出优化的LDA模型用于对Twitter短文本进行聚类;赵林静[10]通过HowNet常识知识库计算输入单词与当前主题聚类中单词间的语义相似度,以此调整LDA模型中的超参数β,提高聚类准确率;王红斌等[11]基于传统LDA模型,结合独立性检测、方差检测和信息熵检测3种不同的特征检测方法,识别文本主题内容,解决数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题;张晨晨[12]提出TF-COLDA模型进行主题挖掘,首先通过TF-LDA特征采样模型进行过滤与主题无关的词得到标准化文档,再利用CO-LDA词共现主题模型提取共现词汇表来构建词共现矩阵,解决语义特征稀疏、共现信息不足的问题。
语步是语言学概念,指实现完整交流功能的一个修辞单位[13],语步的标注可以帮助阅读者有针对性地快速了解写作意图和内容。目前在学术论文语步结构识别方面相关学者开展了研究,如陈果等[14]采用主动学习策略,利用结构化的语步训练数据作为初始语料,训练SVM、CNN、Bi-LSTM 3种分类器,同时结合少量人工标注训练集,多次迭代优化以识别科技文献句子语步功能结构。王末等[15]采用深度学习中的BERT预训练模型,结合文本句子位置改进模型输入,对学术论文句子进行语步分类。欧石燕等[16]提出的BERT预训练模型与深度森林分类算法相结合的混合模型,充分利用人工识别出的句子位置与结构特征,和深度学习自动识别的文本深层语义特征,取得较好的识别效果;赵旸等 [17]对BERT模型的输入层进行修改,通过融合每个语步句子在该篇摘要中的位置信息以实现摘要中各语步的精准识别;郭航程等[18]提出基于Paragraph-BERT-CRF神经网络架构的摘要语步识别模型,能够充分利用摘要文本中的篇章上下文信息,同时考虑了注意力机制和语步标签序列内部的转移关系,实现提升语步功能信息的识别效果。
然而,目前已有研究存在主题识别内容语义信息不足、主题表征词专用短语较少等问题。因此,本文在LDA主题模型基础上,对主题表征词进行语义扩展,构建频繁共现短语作为候选主题表征词,并利用Sentence Transformer预训练模型对表征词主题文本进行语义相似度计算,获取主题表征词扩展短语。同时,引入语步分析法对主题内容进行细粒度挖掘,通过训练BERT语步分类模型,标注主题句子功能,对主题内容进行功能结构层面的理解和分析,以此为主题解读提供新的思路。
本文提出的基于LDA和语步标注的主题识别与分析方法框架(图1),主要包括两部分内容:
图1 研究框架
Fig.1 Research framework
(1)基于LDA主题识别与主题词短语提取。通过数据预处理,结合文档标题、关键词、摘要3个维度对文档进行向量表示,生成语料库,并利用Python中的Gensim库进行LDA主题建模,识别主题信息。在此基础上,对主题表征词进行扩展,通过短语结构分析,构建短语集合,并对主题表征词是否出现在短语集合内进行匹配,以提取候选主题短语集合,同时利用Sentence Transformer预训练模型,对候选短语和主题文本集合进行语义相似度计算,得到主题表征词短语,用户根据实际情况选择最佳短语进行解读。
(2)基于SciBERT模型的语步标注。通过构建农业领域的语步训练集,对SciBERT预训练模型进行微调,训练适用新任务的模型。在此基础上,将主题对应的文本以句子为单位进行切分,利用训练好的模型对句子进行功能识别。综合主题内句子功能识别结果,对主题内容进行多维度分析与解读。
主题模型(Topic Model)能够识别文档里的主题,并且挖掘语料里隐藏的信息,在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。本文通过LDA主题模型,将文档-词汇矩阵变成文档-主题矩阵(分布)和主题-词汇矩阵(分布),其实现流程如图2所示:首先,按照概率P(di)选中一篇文档di,从Dirichlet分布α中抽样生成文档di的主题分布θm,从主题分布θm中抽取文档di第j个词的主题Zm,n, 从Dirichlet分布β中抽样生成主题Zm,n对应的词分布ψk,最后从词分布ψk中抽样生成词wm,n。
图2 LDA模型概率图
Fig.2 LDA model probability diagram
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。