当前位置:   article > 正文

深度神经网络识别垃圾邮件_垃圾邮件数据集

垃圾邮件数据集

电子邮件是较常用的网络应用之一,已经成为网络交流沟通的重要途径。但是,垃圾邮件(spam)烦恼着大多数人,调查显示,93%的被调查者都对他们接收到的大量垃圾邮件非常不满。一些简单的垃圾邮件事件也造成了很有影响的安全问题。
垃圾邮件给互联网以及广大的使用者带来了很大的影响,这种影响不仅仅是人们需要花费时间来处理垃圾邮件、占用系统资源等,同时也带来了很多的安全问题。
垃圾邮件占用了大量网络资源,这是显而易见的。一些邮件服务器因为安全性差,被作为垃圾邮件转发站为被警告、封IP等事件时有发生,大量消耗的网络资源使得正常的业务运作变得缓慢。随着国际上反垃圾邮件的发展,组织间黑名单共享,使得无辜服务器被更大范围屏蔽,这无疑会给正常用户的使用造成严重问题。
所以本次实验我们基于这一背景尝试通过DNN来实现垃圾邮件的识别。

关于DNN的介绍,我们从其组成部分、常见DNN模型、DNN处理的硬件着手进行学习。先来学习DNN的组成部分。
卷积神经网络:如下图所示,由多个卷积层组成(CONV),每个卷积层对各自的输入进行高阶抽象,这种高阶抽象被称为特征图(feature map,fmap)。CNN可以通过非常深的层级实现极高的性能。卷积神经网络被广泛应用在图像理解,语音识别,游戏,以及机器人学等。图5(b)介绍了CNN卷积的过程,CNN中的每个卷积层主要由高维卷积构成。输入为一系列二维特征图(input feature map),特征图的个数被称为通道,这里有C个通道。卷积层输出的每个点都是所有通道卷积之和。卷积层输出的通道数取决于滤波器的个数,本例中有M个滤波器,因此输出特征图为M通道。
在这里插入图片描述

非线性函数:在每个卷积或全连接计算之后,都会使用一个非线性激活函数。如下图所示,不同种类的非线性函数向DNN中引入非线性。起初DNN经常使用Sigmoid或tanh函数,目前ReLU和它的一些变种函数被证明可以更简单,更易训练,同时也能达到更高的准确性,因此变得越来越流行
在这里插入图片描述

池化(Pooling):池化可以使网络鲁棒性更强。通常池化都是不重叠的,这样能降低表示的维数,减小参数量。
在这里插入图片描述

标准化(Normalization):控制各层输入的分布可以极大的加速训练过程并提高准确度。常有的如批标准化(batch normalization)(如下公式),它更进一步的进行缩放和平移,其中γ和β为参数,需要在训练中学习
在这里插入图片描述

常见的DNN模型有:
常见DNN模型

LeNet:1989年第一个CNN方法,为了解决手写数字识别而设计的。
AlexNet:它在2012年赢得了ImageNet挑战,是第一个使用CNN方法赢得ImageNet的网络。它拥有5个卷积层和3个全连接层。
Overfeat:它与AlexNet结构很相似,同样拥有5个卷积层和3个全连接层,区别是Overfeat的滤波器数量更多,所以准确度略有提升。
VGG-16:网络深度大大加深,达到16层,其中包含13个卷积层和3个全连接层。为了平衡网络层数加深而导致的成本增加,一个大的滤波器被分解为多个小的滤波器,来减小参数数量,并具有相同的感知野。VGG有两个模型,还有一个VGG-19的模型,比VGG-16的Top-5错误率低0.1%。如下图所示,为了减少参数,为了使感知野大小不变,使用两个较小的滤波器代替大的滤波器
在这里插入图片描述

GoogLeNet:网络深度达到22层,同时引入了Inception模型,如下图所示。之前的模型通常是级联的,而Inception模型是并行连接的。可以看到,它使用了多种大小的滤波器对输入进行处理,这是为了能够在不同尺度上处理输入。22层网络包括了三个卷积层,接下来使9个inceptioin层(每层相当于两个卷积层),以及一个全连接层。
在这里插入图片描述

ResNet:也叫做残差网络(Residual Net)。使用了残差连接使得网络变得更深(34层,或更多甚至千层)。它是ImageNet挑战中第一个top-5错误率低于人类的。当网络层次变得更深时,训练时的一个难点就是梯度消失(Vanishing Gradient)。由于沿着网络进行反向传播时,梯度会越来越小,导致对于很深的网络,最初几层网络的权重基本不会更新。残差网络引入了“短接”模型,包含了全等连接,使得梯度传播可以跳过卷积层,即使网络层数达到一千层仍可以训练。残差模型如下所示
在这里插入图片描述

再来看看DNN处理的硬件。
由于DNN的流行,许多硬件平台都针对DNN处理的特性进行针对性的开发。无论是服务器级别的还是嵌入式的SoC硬件都在快速发展。因此,了解各种平台如何加速计算,是十分重要的。
CONV和FC层的基本组成都是乘加操作(Multiply-and-Accumulate,MAC),可以很容易的并行化。为了实现高性能,如图12所示,包括时间和空间的架构的经典模型经常被使用。时间架构(也称作SIMD或SIMT)主要出现在CPU或GPU中。它对大量ALU使用集中控制。这些ALU智能从存储器层次结构中获取数据,并且彼此不能通信数据。相比之下,空间架构使用数据流处理,即ALU形成处理链,使得它们能直接将数据从一个传递到另一个。每个ALU有自己的控制逻辑和本地内存,称为暂存器或注册文件。空间架构主要使用在为DNN专门设计的ASIC中。
在这里插入图片描述

对于时间架构,可以使用核心中的计算转换(Computational Transform)来减少乘法的数量,以增加吞吐量(Throughput)。
对于加速硬件中使用的空间架构,使用存储器层次结构中的低成本内存,来增加数据重利用率,以降低能耗。

接下来了解本次实验用到的数据集。
本次实验用到的数据集来自spambase.Spambase Dataset 是一个垃圾邮件数据集,其包含 57 个属性和 4601 个实例,其中1813个实例为垃圾邮件。该数据集主要用于垃圾邮件的识别分类,其中垃圾邮件的资源均来自于邮件管理员和提交垃圾邮件的个人,其可被用于构建垃圾邮件过滤器。
训练数据在spambase.data,文件很大,有700多k,我们在终端中使用head命令打印前几条看看
在这里插入图片描述

可以看到spambase的数据不是原始的邮件内容,而是已经经过特征化的数据,对应的特征是统计的关键字以及特殊符号的词频。最后一个是垃圾邮件的标记位,1表示为垃圾邮件,0表示不是垃圾邮件
具体的格式说明可以打开syambase.name进行查看
在这里插入图片描述

可以看到会统计单词频率、字符频率等特征
在这里插入图片描述

可见这是一个入门级的垃圾邮件分类训练集。

那么接下来我们就来看看代码实现。
首先是加载数据集的函数
在这里插入图片描述

在加载完成后,我们通过train_test_split将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签,这里指定测试集占0.4
加载完成后,指定分类器为DNN
在这里插入图片描述

上面的代码中,hidden_units=[30,15]表示具有两个隐藏层,每层节点数分别为30,15.n_classes=2表示2分类,对应我们的实验,即分类为垃圾邮件与非垃圾邮件。
接着进行训练
在这里插入图片描述

Steps=1000表示训练1000批次,batch_size=50表示每个批次有50个训练数据
使用训练数据集进行分类,得到分类结果y_predict,将其与正确标记的y_test进行比对,计算出准确率
在这里插入图片描述

测试
Python3 dnn.py
在这里插入图片描述

这里会打印出TensorFlow的很多warning信息,不需要去关注。上图红色标注的就是准确率,可以看到高达88.7%

参考:
1.《机器学习之web安全》
2.http://archive.ics.uci.edu/ml/datasets/Spambase/
3.https://baike.baidu.com/item/%E5%8F%8D%E5%9E%83%E5%9C%BE%E9%82%AE%E4%BB%B6
4.https://www.leiphone.com/news/201703/qSPav6WbksGmW3Vh.html
5.https://github.com/duoergun0729/1book/

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/730981
推荐阅读
  

闽ICP备14008679号