赞
踩
在人工智能和机器学习的领域,神经网络模型因其强大的功能和灵活性而广受欢迎。在本次实验中,我们将探讨两种前馈神经网络:多层感知器(MLP)和卷积神经网络(CNN),并了解它们在处理复杂模式识别任务中的应用。
在实验3中,我们已经了解了感知器的基本原理,但感知器在处理线性不可分的数据时存在局限性。例如,在经典的异或(XOR)问题中,感知器无法通过一条直线来分隔数据点。为了克服这一缺点,我们引入了多层感知器。
多层感知器通过将多个感知器层叠加在一起,增强了模型的表达能力。每一层都能够学习输入数据的不同特征,从而实现对复杂模式的识别。在本实验的“姓氏分类”示例中,我们将展示多层感知器如何应用于多层分类任务。
卷积神经网络是一种特别适合处理图像和序列数据的神经网络模型。它受到数字信号处理中窗口滤波器的启发,能够学习输入数据中的局部模式。这种局部感知特性使得CNN在计算机视觉领域占据了主导地位,并且在自然语言处理中也显示出了其潜力。
在“姓氏分类”示例中,我们将使用CNN来处理文本数据,展示其在序列数据子结构检测中的有效性。
多层感知器(MLP)是深度学习的基础,它通过堆叠多个线性层和非线性激活函数来模拟复杂的函数。在本博客中,我们将深入了解MLP的结构,探索如何在PyTorch中实现和训练一个MLP模型,并通过代码示例展示其应用。
MLP由输入层、一个或多个隐藏层和输出层组成。每个层由多个神经元组成,每个神经元都连接到下一层的所有神经元。这种结构使得MLP能够学习输入数据的复杂表示。
在PyTorch中实现MLP非常直接。我们定义了一个MultilayerPerceptron类,它继承自nn.Module。在这个类中,我们定义了两个线性层fc1和fc2,分别代表第一个和第二个线性层。我们还在两层之间使用了ReLU激活函数。
import torch.nn as nnimport torch.nn.functional as F
class MultilayerPerceptron(nn.Module):
def __init__(self, input_dim, hidden_dim, output_dim):
super(MultilayerPerceptron, self).__init__()
self.fc1 = nn.Linear(input_dim, hidden_dim)
self.fc2 = nn.Linear(hidden_dim, output_dim)
def forward(self, x_in, apply_softmax=False):
intermediate = F.relu(self.fc1(x_in))
output = self.fc2(intermediate)
if apply_softmax:
output = F.softmax(output, dim=1)
return output
我们可以实例化一个MLP模型,并通过传递一些随机输入来测试它的功能。这个测试有助于验证模型的结构是否正确。
batch_size = 2
input_dim = 3
hidden_dim = 100
output_dim = 4
mlp = MultilayerPerceptron(input_dim, hidden_dim, output_dim)print(mlp)
x_input = torch.rand(batch_size, input_dim)
y_output = mlp(x_input, apply_softmax=False)print(y_output)
在这个例子中,我们创建了一个输入维度为3,隐藏层维度为100,输出维度为4的MLP模型。我们通过打印模型结构和传递随机输入来测试模型。
要训练MLP模型,我们需要定义一个损失函数和一个优化器。以下是一个简单的训练循环,它展示了如何在PyTorch中训练MLP。
import torch.optim as optim
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(mlp.parameters(), lr=0.01)
# 模拟一些训练数据
x_train = torch.randn(100, input_dim)
y_train = torch.randint(0, output_dim, (100,))
# 训练循环for epoch in range(100):
# 前向传播
outputs = mlp(x_train)
loss = criterion(outputs, y_train)
# 反向传播和优化
optimizer.zero_grad()
loss.backward()
optimizer.step()
# 打印损失
if (epoch+1) % 10 == 0:
print(f'Epoch [{epoch+1}/100], Loss: {loss.item():.4f}')
在这个例子中,我们使用了交叉熵损失函数和随机梯度下降(SGD)优化器来训练模型。我们模拟了一些训练数据,并在100个 epochs 内训练模型。
通过在PyTorch中实现和训练MLP,我们展示了如何构建一个简单的神经网络模型来学习数据的复杂表示。MLP的强大之处在于它能够通过非线性激活函数和多层结构来建模输入数据的复杂关系。在处理分类问题时,MLP能够学习类之间的线性可分性,使得分类任务变得可行。
在未来的工作中,我们可以探索更复杂的网络结构,如卷积神经网络(CNN)和循环神经网络(RNN),以及不同的优化技术和正则化方法,以提高模型的性能和泛化能力。
在机器学习和深度学习领域,多层感知器(MLP)是一个基础且强大的模型,它通过堆叠多个线性层和非线性激活函数来模拟复杂的函数。在本博客中,我们将探索MLP的基本概念,并通过PyTorch实现一个简单的MLP模型,用于将姓氏分类到其原籍国。
MLP的基本思想是将多个感知器层堆叠在一起,每个层的输出作为下一层的输入。这种结构使得MLP能够学习输入数据的复杂表示。在本文中,我们将使用一个简单的MLP模型,它包含两个线性层和一个隐藏层。
我们将使用一个包含18个国家10,000个姓氏的数据集。为了创建最终的数据集,我们执行了几个数据集修改操作,包括减少不平衡、根据国籍对数据集进行分组,并将数据集分为训练、验证和测试部分。
在PyTorch中实现MLP非常直接。我们定义了一个SurnameClassifier类,它继承自nn.Module。在这个类中,我们定义了两个线性层fc1和fc2,分别代表第一个和第二个线性层。我们还在两层之间使用了ReLU激活函数。
class SurnameClassifier(nn.Module):
def __init__(self, input_dim, hidden_dim, output_dim):
super(SurnameClassifier, self).__init__()
self.fc1 = nn.Linear(input_dim, hidden_dim)
self.fc2 = nn.Linear(hidden_dim, output_dim)
def forward(self, x_in, apply_softmax=False):
intermediate_vector = F.relu(self.fc1(x_in))
prediction_vector = self.fc2(intermediate_vector)
if apply_softmax:
prediction_vector = F.softmax(prediction_vector, dim=1)
return prediction_vector
要训练MLP模型,我们需要定义一个损失函数和一个优化器。以下是一个简单的训练循环,它展示了如何在PyTorch中训练MLP。
import torch.optim as optim
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(classifier.parameters(), lr=0.001)
# 训练循环for epoch in range(args.num_epochs):
# 遍历训练数据
for batch_index, batch_dict in enumerate(dataloader):
# 步骤1: 零化梯度
optimizer.zero_grad()
# 步骤2: 计算输出
y_pred = classifier(batch_dict['x_surname'])
# 步骤3: 计算损失
loss = criterion(y_pred, batch_dict['y_nationality'])
loss_batch = loss.to("cpu").item()
running_loss += (loss_batch - running_loss) / (batch_index + 1)
# 步骤4: 使用损失产生梯度
loss.backward()
# 步骤5: 使用优化器进行梯度下降
optimizer.step()
为了理解模型的性能,我们可以使用定量和定性方法进行分析。例如,我们可以使用测试数据集来评估模型的准确性,并使用预测函数来为新示例进行分类。
在PyTorch中,您可以为模型中的每个参数指定一个正则化权重。以下是一个简单的例子,展示了如何在MLP模型中添加L2正则化。
import torch.nn as nnimport torch.optim as optim
# 定义MLP模型class SurnameClassifier(nn.Module):
# ... 省略其他代码 ...
# 实例化模型
classifier = SurnameClassifier(input_dim, hidden_dim, output_dim)
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(classifier.parameters(), lr=0.001, weight_decay=1e-5)
# 训练循环for epoch in range(args.num_epochs):
# ... 省略其他代码 ...
# 步骤5: 使用优化器进行梯度下降
optimizer.zero_grad()
loss.backward()
optimizer.step()
optimizer.zero_grad() # 确保梯度被清零
在这个例子中,weight_decay参数被设置为1e-5,这将应用L2正则化。L1正则化可以通过在optimizer参数中添加weight_decay=1e-5来实现。
Dropout是一种常用的正则化技术,它可以防止模型在训练过程中过度拟合。以下是一个带有dropout的MLP模型的例子。
import torch.nn as nnimport torch.nn.functional as F
class SurnameClassifierWithDropout(nn.Module):
def __init__(self, input_dim, hidden_dim, output_dim):
super(SurnameClassifierWithDropout, self).__init__()
self.fc1 = nn.Linear(input_dim, hidden_dim)
self.fc2 = nn.Linear(hidden_dim, output_dim)
def forward(self, x_in, apply_softmax=False):
intermediate_vector = F.relu(self.fc1(x_in))
output = self.fc2(F.dropout(intermediate_vector, p=0.5))
if apply_softmax:
output = F.softmax(output, dim=1)
return output
在这个例子中,p=0.5参数表示在训练过程中,每个神经元被随机丢弃的概率。这有助于模型在测试时表现得更好,因为它减少了神经元之间的依赖性。
通过在PyTorch中实现和训练MLP,我们展示了如何构建一个简单的神经网络模型来学习数据的复杂表示。
在机器学习和深度学习领域,卷积神经网络(CNN)是一种强大的模型,特别适合于检测空间子结构。在本博客中,我们将探索CNN的基本概念,并通过PyTorch实现一个简单的CNN模型,用于将姓氏分类到其原籍国。
CNN通过使用少量的权重来扫描输入数据张量,产生表示子结构检测(或不检测)的输出张量。这种扫描方式使得CNN能够捕捉到输入数据的局部特征,并将其组合成更复杂的模式。
我们将使用一个包含18个国家10,000个姓氏的数据集。为了创建最终的数据集,我们执行了几个数据集修改操作,包括减少不平衡、根据国籍对数据集进行分组,并将数据集分为训练、验证和测试部分。
在PyTorch中实现CNN非常直接。我们定义了一个SurnameClassifierWithCNN类,它继承自nn.Module。在这个类中,我们定义了一个卷积层conv1和一个线性层fc1,分别用于提取特征和进行分类。
import torch.nn as nnimport torch.nn.functional as F
class SurnameClassifierWithCNN(nn.Module):
def __init__(self, input_dim, hidden_dim, output_dim):
super(SurnameClassifierWithCNN, self).__init__()
self.conv1 = nn.Conv1d(input_dim, 16, kernel_size=3, stride=1, padding=1)
self.fc1 = nn.Linear(16, hidden_dim)
self.fc2 = nn.Linear(hidden_dim, output_dim)
def forward(self, x_in, apply_softmax=False):
x_conv = F.relu(self.conv1(x_in))
x_flat = x_conv.view(x_conv.size(0), -1)
intermediate_vector = F.relu(self.fc1(x_flat))
prediction_vector = self.fc2(intermediate_vector)
if apply_softmax:
prediction_vector = F.softmax(prediction_vector, dim=1)
return prediction_vector
要训练CNN模型,我们需要定义一个损失函数和一个优化器。以下是一个简单的训练循环,它展示了如何在PyTorch中训练CNN。
import torch.optim as optim
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(classifier.parameters(), lr=0.001)
# 训练循环for epoch in range(args.num_epochs):
# ... 省略其他代码 ...
# 步骤5: 使用优化器进行梯度下降
optimizer.zero_grad()
loss.backward()
optimizer.step()
optimizer.zero_grad() # 确保梯度被清零
CNN的超参数包括核大小、步幅、填充、膨胀等。这些超参数控制了卷积核在输入数据张量上的扫描方式,从而影响模型的性能和泛化能力。
为了理解模型的性能,我们可以使用定量和定性方法进行分析。例如,我们可以使用测试数据集来评估模型的准确性,并使用预测函数来为新示例进行分类。
通过在PyTorch中实现和训练CNN,我们展示了如何构建一个简单的神经网络模型来学习数据的复杂表示。CNN的强大之处在于它能够通过卷积操作和池化层来捕捉输入数据的局部特征,并将其组合成更复杂的模式。
在本节中,我们将通过一个端到端的示例来利用上一节中介绍的CNN概念。我们将再次考虑在“示例:带有多层感知器的姓氏分类”中引入的姓氏分类任务,但这次我们将使用CNN而不是MLP。我们将应用最后一个线性层,它将学会从一系列卷积层创建的特征向量创建预测向量。这意味着我们需要确定卷积层的配置,以便得到所需的特征向量。
我们将使用一个包含18个国家10,000个姓氏的数据集。为了创建最终的数据集,我们执行了几个数据集修改操作,包括减少不平衡、根据国籍对数据集进行分组,并将数据集分为训练、验证和测试部分。
在PyTorch中实现CNN非常直接。我们定义了一个SurnameClassifierWithCNN类,它继承自nn.Module。在这个类中,我们定义了一个卷积层conv1和一个线性层fc1,分别用于提取特征和进行分类。
import torch.nn as nnimport torch.nn.functional as F
class SurnameClassifierWithCNN(nn.Module):
def __init__(self, input_dim, hidden_dim, output_dim):
super(SurnameClassifierWithCNN, self).__init__()
self.conv1 = nn.Conv1d(input_dim, 16, kernel_size=3, stride=1, padding=1)
self.fc1 = nn.Linear(16, hidden_dim)
self.fc2 = nn.Linear(hidden_dim, output_dim)
def forward(self, x_in, apply_softmax=False):
x_conv = F.relu(self.conv1(x_in))
x_flat = x_conv.view(x_conv.size(0), -1)
intermediate_vector = F.relu(self.fc1(x_flat))
prediction_vector = self.fc2(intermediate_vector)
if apply_softmax:
prediction_vector = F.softmax(prediction_vector, dim=1)
return prediction_vector
在构建特征向量时,我们首先构造一个人工数据张量,以反映实际数据的形状。数据张量的大小是三维的——这是向量化文本数据的最小批大小。每个onehot的大小是词汇表的大小,字符序列的长度是字符串的长度。
在例4-14中,我们首先将PyTorch的Conv1d类的一个实例应用到三维数据张量。通过检查输出的大小,你可以知道张量减少了多少。建议参考图4-9来直观地解释为什么输出张量在收缩。
batch_size = 2
one_hot_size = 10
sequence_width = 7
data = torch.randn(batch_size, one_hot_size, sequence_width)
conv1 = nn.Conv1d(in_channels=one_hot_size, out_channels=16, kernel_size=3)
intermediate1 = conv1(data)print(data.size())print(intermediate1.size())
进一步减小输出张量的主要方法有三种。第一种方法是创建额外的卷积并按顺序应用它们。最终,对应的sequence_width (dim=2)维度的大小将为1。我们在例4-15中展示了应用两个额外卷积的结果。
conv2 = nn.Conv1d(in_channels=16, out_channels=32, kernel_size=3)
conv3 = nn.Conv1d(in_channels=32, out_channels=64, kernel
conv3 = nn.Conv1d(in_channels=32, out_channels=64, kernel_size=3)
intermediate2 = conv2(intermediate1)
intermediate3 = conv3(intermediate2)
print(intermediate2.size())
print(intermediate3.size())
在每次卷积中,通道维数的大小都会增加,因为通道维数是每个数据点的特征向量。张量实际上是一个特征向量的最后一步是去掉讨厌的尺寸=1维。您可以使用squeeze()方法来实现这一点。该方法将删除size=1的所有维度并返回结果。然后,得到的特征向量可以与其他神经网络组件(如线性层)一起使用来计算预测向量。
python
复制
y_output = intermediate3.squeeze()print(y_output.size())
另外还有两种方法可以将张量简化为每个数据点的一个特征向量:将剩余的值压平为特征向量,并在额外维度上求平均值。这两种方法如示例4-16所示。使用第一种方法,只需使用PyTorch的view()方法将所有向量平展成单个向量。第二种方法使用一些数学运算来总结向量中的信息。最常见的操作是算术平均值,但沿feature map维数求和和使用最大值也是常见的。每种方法都有其优点和缺点。扁平化保留了所有的信息,但会导致比预期(或计算上可行)更大的特征向量。平均变得与额外维度的大小无关,但可能会丢失信息。
# Method 2 of reducing to feature vectors
print(intermediate1.view(batch_size, -1).size())
# Method 3 of reducing to feature vectors
print(torch.mean(intermediate1, dim=2).size())
# print(torch.max(intermediate1, dim=2).size())# print(torch.sum(intermediate1, dim=2).size())
这种设计一系列卷积的方法是基于经验的:从数据的预期大小开始,处理一系列卷积,最终得到适合您的特征向量。虽然这种方法在实践中效果很好,但在给定卷积的超参数和输入张量的情况下,还有另一种计算张量输出大小的方法,即使用从卷积运算本身推导出的数学公式。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。