基于cnn的短文本分类_基于CNN和BiLSTM的文档二分类模型

作者：凡人多烦事01 | 2024-03-14 15:40:54

踩

cnn+bilstm文本分类

自动文档分类是一个基础研究主题，可以广泛地应用在垃圾邮件分类、网页分类、自动新闻情感识别等领域。基于机器学习的方法，需要进行的工作有特征选择、分类器训练。

实验1，利用机器学习的方法进行分类器训练。获取携程网站关于酒店情感的已标注评论，清洗后得到2560行正向评论、3533行负向评论。按组进行5-fold拆分，比较和评价以下几种特征选择方法。

文本特征提取按照字符Unigram、Bigram、Trigram以及词共四种Term生成方法，向量生成有频率和TfIdf两种生成向量的方法，利用L2进行正则化[1]。根据上述不同特征处理方法，进行了不同的特征选则，其评价如下表1：

对各自变量计算相关性矩阵，可知，如图2：

图2 自变量计算相关性矩阵

实验2，利用CNN和BiLSTM[2-3]构建情感分类模型，其各特征的相关性矩阵如图3：

图3 CNN、LSTM模型特征的自变量计算相关性矩阵

由此可见，Tfidf以及L2正则化对于LogisticRegression具有正向效果，而FeatureDim对于LSTM文档分类有正向效果。

[1]李景阳. (2008). 文本分类中的特种提取与权重分析.

[2]Adhikari, A., Ram, A., Tang, R., & Lin, J. (2019). Rethinking Complex Neural Network Architectures for Document Classification. Proceedings of the 2019 Conference of the North, 4046–4051. Rethinking Complex Neural Network Architectures for Document Classification

[3]Zhou, C., Sun, C., Liu, Z., & Lau, F. C. M. (2015). A C-LSTM Neural Network for Text Classification.

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/235547