深入浅出：RNN文本分类模型实战攻略

作者：小舞很执着 | 2024-07-18 00:18:13

踩

rnn文本分类

一、RNN文本分类模型概述

一、RNN文本分类模型概述

RNN文本分类模型是一种使用循环神经网络（RNN）进行文本分类的模型。RNN是一种递归神经网络，能够处理序列数据，如文本。在文本分类任务中，RNN模型可以将文本序列转换为连续的向量表示，并使用这些向量进行分类。它可以用于各种文本分类任务，如情感分析、主题分类、垃圾邮件检测等。它的优点是可以处理变长序列，捕捉序列中的长期依赖关系和上下文信息。然而，它的缺点是训练过程可能较慢，并且需要对数据进行正确的预处理和特征工程。

二、RNN文本分类模型具体构建

1、定义模型类


class Model(nn.Module):
    def __init__(self, embedding_pretrained,n_vocab,embed,num_classes):
        super(Model, self).__init__()
        if embedding_pretrained is not None:# 4761 pad  告诉模型，4761
            self.embedding = nn.Embedding.from_pretrained(embedding_pretrained, padding_idx = n_vocab-1, freeze=False)#如果使用预训练好的embedding使用本行
        else:
            self.embedding = nn.Embedding(n_vocab, embed, padding_idx = n_vocab - 1)#如果新训练embedding使用本行
        #padding_idx默认为None，如果指定，则padding_idx对应的参数PAD不会对梯度产生影响，因此在padding_idx处词嵌入向量在训练过程中不会被更新。
        self.lstm = nn.LSTM(embed, 128, 3, bidirectional=True, batch_first=True, dropout=0.3)
        #128为每一层中每个隐状态中的神经元个数，3为隐藏层的个数,batch_first=True表示输入和输出张量将以' (batch, seq, feature) '而不是' (seq, batch, feature) '提供。
        self.fc = nn.Linear(128 * 2, num_classes)

部分参数详细解释：

def __init__(self, embedding_pretrained, n_vocab, embed, num_classes): 这是模型类的构造函数，它接受四个参数：预训练的词嵌入（embedding_pretrained）、词汇量大小(n_vocab)、词嵌入的维度(embed)、以及分类的类别数(num_classes)。
self.embedding = nn.Embedding.from_pretrained(embedding_pretrained, padding_idx=n_vocab-1, freeze=False): embedding_pretrained是预训练的词嵌入，使用这个预训练的词嵌入模型，并将padding_idx设置为最后一个词嵌入的索引（n_vocab-1），并将freeze设置为False，表示在训练过程中更新词嵌入的权重。
self.lstm = nn.LSTM(embed, 128, 3, bidirectional=True, batch_first=True, dropout=0.3): 创建一个LSTM层，输入特征数为embed（词嵌入的维度），每个隐状态的神经元数量为128，隐藏层的数量为3，双向为True，批处理优先为True，dropout率为0.3（随机关闭一些神经元以防止过拟合）。
self.fc = nn.Linear(128 * 2, num_classes): 创建一个全连接层（线性层），输入特征数为128 * 2（LSTM层的输出特征数），输出特征数为num_classes（分类类别数）。

定义了一个PyTorch模型，它主要用于文本分类任务。模型的结构包括词嵌入层、LSTM（长短期记忆）层和全连接层。在模型的前向传播过程中，输入数据首先经过词嵌入层，然后传递给LSTM层，最后通过全连接层得到输出。其中，词嵌入层将输入的文本序列转换为连续的向量表示，LSTM层对词嵌入层的输出进行进一步的处理，并捕获序列中的长期依赖关系，最后的全连接层对LSTM层的输出进行分类。

2、模型前向传播


 def forward(self, x):   #([23,34,..,13],79)
        x, _ = x
        out = self.embedding(x)  #
        out, _ = self.lstm(out)
        out = self.fc(out[:, -1, :])  # 句子最后时刻的 hidden state
        return out

其中，各参数详解如下：

x, _ = x:从输入张量中分离出序列长度和批次大小。这里我们只关心序列长度，所以使用下划线“_”忽略批次大小，下列不再叙述。
out = self.embedding(x): 将输入张量x传递给词嵌入层，得到一个形状为(batch, sequence, embed)的张量。在这里，批次大小等于序列长度，因为我们在每个批次中只处理一个序列。
out, _ = self.lstm(out): 将词嵌入层的输出传递给LSTM层，得到一个形状为(batch, sequence, 128 * 2)的张量。LSTM层的输出是每个时刻的隐藏状态和最后的隐藏状态。

定义了一个神经网络的前向传播过程，首先将文本序列转换为连续的向量表示，然后通过LSTM层和全连接层进行分类。实现了一个包含词嵌入层、LSTM层和全连接层的神经网络。

3、完整代码展示


import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import sys
 
class Model(nn.Module):
    def __init__(self, embedding_pretrained,n_vocab,embed,num_classes):
        super(Model, self).__init__()
        if embedding_pretrained is not None:# 4761 pad  告诉模型，4761
            self.embedding = nn.Embedding.from_pretrained(embedding_pretrained, padding_idx = n_vocab-1, freeze=False)#如果使用预训练好的embedding使用本行
        else:
            self.embedding = nn.Embedding(n_vocab, embed, padding_idx = n_vocab - 1)#如果新训练embedding使用本行
        #padding_idx默认为None，如果指定，则padding_idx对应的参数PAD不会对梯度产生影响，因此在padding_idx处词嵌入向量在训练过程中不会被更新。
        self.lstm = nn.LSTM(embed, 128, 3, bidirectional=True, batch_first=True, dropout=0.3)
        #128为每一层中每个隐状态中的神经元个数，3为隐藏层的个数,batch_first=True表示输入和输出张量将以' (batch, seq, feature) '而不是' (seq, batch, feature) '提供。
        self.fc = nn.Linear(128 * 2, num_classes)
 
    def forward(self, x):   #([23,34,..,13],79)
        x, _ = x
        out = self.embedding(x)  #
        out, _ = self.lstm(out)
        out = self.fc(out[:, -1, :])  # 句子最后时刻的 hidden state
        return out

综上所述，定义了一个包含词嵌入层、LSTM层和全连接层的神经网络模型，可以用于文本分类任务的前向传播过程，为后续文本分类的整体实现奠定了基础。

三、总结

RNN文本分类模型构建的过程包括数据预处理、模型构建、参数设置、训练、评估和应用等多个步骤。通过对这些步骤的合理设计和调整，可以构建出高效且准确的RNN文本分类模型。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小舞很执着/article/detail/842709