当前位置:   article > 正文

基于cnn的短文本分类_基于CNN和BiLSTM的文档二分类模型

cnn+bilstm文本分类

自动文档分类是一个基础研究主题,可以广泛地应用在垃圾邮件分类、网页分类、自动新闻情感识别等领域。基于机器学习的方法,需要进行的工作有特征选择、分类器训练。

实验1,利用机器学习的方法进行分类器训练。获取携程网站关于酒店情感的已标注评论,清洗后得到2560行正向评论、3533行负向评论。按组进行5-fold拆分,比较和评价以下几种特征选择方法。

文本特征提取按照字符Unigram、Bigram、Trigram以及词共四种Term生成方法,向量生成有频率和TfIdf两种生成向量的方法,利用L2进行正则化[1]。根据上述不同特征处理方法,进行了不同的特征选则,其评价如下表1:

2801cc7e1f222de029f7e7ce4ce8a7df.png

对各自变量计算相关性矩阵,可知,如图2:

a85a8b91612d1c04a1b33f428f12f574.png
图2 自变量计算相关性矩阵

实验2,利用CNN和BiLSTM[2-3]构建情感分类模型,其各特征的相关性矩阵如图3:

ff98f8259dd2eff1f8f50318fe7d2666.png
图3 CNN、LSTM模型特征的自变量计算相关性矩阵

由此可见,Tfidf以及L2正则化对于LogisticRegression具有正向效果,而FeatureDim对于LSTM文档分类有正向效果。

[1]李景阳. (2008). 文本分类中的特种提取与权重分析.

[2]Adhikari, A., Ram, A., Tang, R., & Lin, J. (2019). Rethinking Complex Neural Network Architectures for Document Classification. Proceedings of the 2019 Conference of the North, 4046–4051. Rethinking Complex Neural Network Architectures for Document Classification

[3]Zhou, C., Sun, C., Liu, Z., & Lau, F. C. M. (2015). A C-LSTM Neural Network for Text Classification.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/235547
推荐阅读
相关标签
  

闽ICP备14008679号