赞
踩
ISCXTor2016数据集是UNB(University of New Brunswick)发布的Tor流量有标签数据集。这个大学发布了很多网络安全领域的数据集,包括广泛使用的NSL-KDD数据集和CICIDS2017数据集。本文对该数据集进行尽可能详细的介绍。
为了生成现实世界流量的代表性数据集,作者定义了一组任务,以确保数据集具有足够的多样性和条目数。作者为用户Alice和Bob创建了帐户,以便使用Skype,Facebook等服务。数据集包含来自超过18种代表性应用程序(例如,facebook,skype,spotify,gmail等)的以下8种类型的流量(browsing, chat, audio-streaming, video-streaming, mail, VOIP, P2P 和 File Transfer)。
Tor流量捕获场景如图1所示。图出自参考文献中的论文。
工作站通过网关虚拟机连接到Internet,后者又通过Tor网络路由所有流量。通过此配置,在工作站虚拟机上使用Tor网络变得透明。作者同时捕获了工作站和网关处的传出流量,并收集了两个.pcap文件:一个常规流量(工作站)pcap文件和一个Tor流量(网关)pcap文件。捕获的流量通过以下两步进行标记。 首先,对在工作站捕获的.pcap文件进行处理:作者提取了流,并确认大部分流量是由应用程序X(skype,ftps等)生成的,X即流量捕获的对象。然后,作者将来自Tor .pcap文件的所有流标记为X。这种标记Tor流量的方法背后的原因是,Tor是一种面向电路的协议:从网关到入口节点的所有流量都将被加密并通过相同的连接发送。
数据集中定义了8种类别,即Browsing, Email, Chat, Audio-streaming, Video-streaming, File Transfer, VoIP和P2P。具体定义可以看文献。同时,作者定义了一系列特征,详见文献。
作者考虑了两种场景:
实验部分不做介绍了,感兴趣的可以去看原文献。
共有两个压缩包,即TorCSV.zip和TorPcaps.zip。
由于水平有限,不足之处,还请批评指教。另外,由于一些众所周知的原因,可能官网下数据集比较慢。我把数据集下下来存到onedrive上了,需要的可以联系我分享onedrive链接。
Arash Habibi Lashkari, Gerard Draper-Gil, Mohammad Saiful Islam Mamun and Ali A. Ghorbani, “Characterization of Tor Traffic Using Time Based Features”, In the proceeding of the 3rd International Conference on Information System Security and Privacy, SCITEPRESS, Porto, Portugal, 2017.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。