赞
踩
导师给了个服务器IP分类的项目,因为之前没做过这种,就找了一篇博士论文。
看论文顺序:中文博士论文—中文综述—英文博士论文—英文综述
网络流量异常:
异常检测方法:
基于端口:简单易实现,但准确度较低。 端口共65535个,0-1024公用
不可靠原因:新应用不再有固定端口号,p2p常用随机端口;
很多应用采用端口伪装技术(故意使用公用端口)躲避防火墙或入侵检测系统
NAT的使用,端口地址转换
基于有效载荷/DPI(深度报文检测):无法处理加密流量,复杂度较高(字节匹配,难以实时)
以上两种属于基于规则的方法,根据人工制定且硬编码的固定规则进行匹配分类
基于统计 :基于机器学习。
基本思想:不同种类的应用产生的流量特性不同
例如,web是短时间内大量流量,VoIP是长时间内少量流量的稳定传输
常见流量特征:
网络流特征:双方一次通信的所有数据包
网络流持续时间,总字节数,平均每个数据包的字节数
数据包特征:每个数据包的特征
通信方向,包间隔时间
常用预处理过程,提取特征数据
优势:计算复杂度较低,可以用于加密流量
缺点:需要专门的特征设计,分类准确度没有DPI高,特别是无监督学习,误警率较高
基于行为 :基于机器学习
深度学习:基于表征学习(特征学习):对原始输入数据进行逐层学习,自动得到高层次的特征数据
恶意/正常流量分类
加密/非加密流量分类
流量加密已成事实标准 TLS
网络流量分类常见数据单元
CNN:将流量视为流量字节组成的流量图像,学习空间特征
RNN:视为流量字节组成的单元序列,或多个网络数据包组成的单元序列,学习时序特征
基于指纹
基于端口:可靠性不高
基于深层包:提取特定字符串模式作为流量指纹,建立指纹库,对新流量进行正则表达式匹配
在云端存储指纹库
基于异常
基于载荷
基于端口和深层包,用模式匹配检查包头格式
基于特征
基于统计和行为 ,网络流特征和数据包特征
异常分类:
网络攻击:
聚类检测的三个假设:
数据集::USTC-TFC2016
基于机器学习的流量分类方法,需要按一定粒度把连续流量且分为多个离散单元。每个单元中的每个包,按照OSI或TCP/IP可划分为多个层。
流量粒度
网络流量切分方式:TCP连接、流、会话、服务、主机
流:有相同五元组(源IP、源端口、目的IP、目的端口、传输层协议)的所有包
会话:双向流组成的所有包,即上面的源和目的可以互换
协议层次
流量特征主要体现在应用层。
流量清洗/匿名化:对流量数据的特有信息随机化处理
流量切分 pcap 数据
流量清理:用随机生成的新地址替换MAC和IP地址(如果流量来自同一网络环境则不需要)。清除没有内容的数据包,重复数据只保留一个
图片生成:文件按照784字节统一长度处理,超过则截取,不足则补充0x00。转换为灰度图片
IDX转换:将图片转换成IDX格式,包含像素信息和统计信息,是CNN的输入文件标准格式
根据协议层不同,流量加密技术分为
主流的流量分类方法:
采用的数据集 :ISCX VPN-nonVPN ,7种常规加密和7种协议封装流量
步骤
思想:使用CNN学习数据包内的空间特征(流量转化为图像),作为下层;使用RNN(LSTM)学习数据包之间的时序特征,作为上层;上层建立在下层基础上
数据集:DAPRA 1998和ISCX2012
非平衡数据集问题
领域知识的应用
数据包的结构信息
基于半监督和无监督学习的异常检测
少量有标签和大量无标签数据
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。