赞
踩
自动文档分类是一个基础研究主题,可以广泛地应用在垃圾邮件分类、网页分类、自动新闻情感识别等领域。基于机器学习的方法,需要进行的工作有特征选择、分类器训练。
实验1,利用机器学习的方法进行分类器训练。获取携程网站关于酒店情感的已标注评论,清洗后得到2560行正向评论、3533行负向评论。按组进行5-fold拆分,比较和评价以下几种特征选择方法。
文本特征提取按照字符Unigram、Bigram、Trigram以及词共四种Term生成方法,向量生成有频率和TfIdf两种生成向量的方法,利用L2进行正则化[1]。根据上述不同特征处理方法,进行了不同的特征选则,其评价如下表1:
对各自变量计算相关性矩阵,可知,如图2:
实验2,利用CNN和BiLSTM[2-3]构建情感分类模型,其各特征的相关性矩阵如图3:
由此可见,Tfidf以及L2正则化对于LogisticRegression具有正向效果,而FeatureDim对于LSTM文档分类有正向效果。
[1]李景阳. (2008). 文本分类中的特种提取与权重分析.
[2]Adhikari, A., Ram, A., Tang, R., & Lin, J. (2019). Rethinking Complex Neural Network Architectures for Document Classification. Proceedings of the 2019 Conference of the North, 4046–4051. Rethinking Complex Neural Network Architectures for Document Classification
[3]Zhou, C., Sun, C., Liu, Z., & Lau, F. C. M. (2015). A C-LSTM Neural Network for Text Classification.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。