当前位置:   article > 正文

ISCXTor2016数据集(Tor-nonTor dataset)介绍_iscx数据集

iscx数据集

简介

  ISCXTor2016数据集是UNB(University of New Brunswick)发布的Tor流量有标签数据集。这个大学发布了很多网络安全领域的数据集,包括广泛使用的NSL-KDD数据集和CICIDS2017数据集。本文对该数据集进行尽可能详细的介绍。

数据集生成

  为了生成现实世界流量的代表性数据集,作者定义了一组任务,以确保数据集具有足够的多样性和条目数。作者为用户Alice和Bob创建了帐户,以便使用Skype,Facebook等服务。数据集包含来自超过18种代表性应用程序(例如,facebook,skype,spotify,gmail等)的以下8种类型的流量(browsing, chat, audio-streaming, video-streaming, mail, VOIP, P2P 和 File Transfer)。
   Tor流量捕获场景如图1所示。图出自参考文献中的论文。
图1 Tor流量捕获场景

图1 Tor流量捕获场景

   工作站通过网关虚拟机连接到Internet,后者又通过Tor网络路由所有流量。通过此配置,在工作站虚拟机上使用Tor网络变得透明。作者同时捕获了工作站和网关处的传出流量,并收集了两个.pcap文件:一个常规流量(工作站)pcap文件和一个Tor流量(网关)pcap文件。捕获的流量通过以下两步进行标记。 首先,对在工作站捕获的.pcap文件进行处理:作者提取了流,并确认大部分流量是由应用程序X(skype,ftps等)生成的,X即流量捕获的对象。然后,作者将来自Tor .pcap文件的所有流标记为X。这种标记Tor流量的方法背后的原因是,Tor是一种面向电路的协议:从网关到入口节点的所有流量都将被加密并通过相同的连接发送。
   数据集中定义了8种类别,即Browsing, Email, Chat, Audio-streaming, Video-streaming, File Transfer, VoIP和P2P。具体定义可以看文献。同时,作者定义了一系列特征,详见文献。
   作者考虑了两种场景:

  • Scenario A: Tor流量检测。为了创建这种场景,作者合并了两个不同的数据集,即本文中介绍的Tor数据集和Draper-Gil等人生成的加密流量公开数据集,其包含了同一网络上的相同应用。作者根据pcap文件生成了流,并从每个数据集中提取了所提出的基于时间的特征,并将来自Tor数据集的所有流标记为Tor,并将来自Draper-Gil等人的数据集的所有流标记为NonTor。作者合并了两组带标签的流,并将它们用作场景A实验的输入。在这种场景下,用例是一个给定从加密流量(输入)中提取的一组基于时间的特征,分辨出是否属于Tor(输出)流量的应用。
  • Scenario B: Tor流量中的应用鉴别。在这种场景下,仅使用了本文介绍的Tor数据集。根据在网关处捕获的.pcap文件生成了流,并根据工作站上执行的应用程序对它们进行了标记(Browsing, Audio, CHAT, Mail, P2P, FILE TRANSFER, VOIP, 和Video)。此场景中的用例是一个应用程序,给定从Tor流提取的一组基于时间的特征(输入),该应用程序将检测(标记)在该流中运行的应用程序类型(输出)。

  实验部分不做介绍了,感兴趣的可以去看原文献。

数据集文件

  共有两个压缩包,即TorCSV.zip和TorPcaps.zip。

  • TorCSV.zip中有Scenario-A和Scenario-B两部分,其中Scenario-A中文件如图2所示,Scenario-B中文件如图3所示。数据集中的时间为UDP流的timeout时间(生成流时,TCP根据FIN包确定结束时间,UDP流根据timeout时间结束)。

Scenario-A

图2 Scenario-A

Scenario-B

图3 Scenario-B
  • TorPcaps.zip中有nonTor和tor两部分,其中nonTor中文件如图4所示,tor中文件如图5所示。nonTor应该就是Draper-Gil等人生成的加密流量公开数据集,tor为作者捕获的数据。

nonTor

图4 nonTor

tor

图5 tor

写在最后

  由于水平有限,不足之处,还请批评指教。另外,由于一些众所周知的原因,可能官网下数据集比较慢。我把数据集下下来存到onedrive上了,需要的可以联系我分享onedrive链接。

参考文献

Arash Habibi Lashkari, Gerard Draper-Gil, Mohammad Saiful Islam Mamun and Ali A. Ghorbani, “Characterization of Tor Traffic Using Time Based Features”, In the proceeding of the 3rd International Conference on Information System Security and Privacy, SCITEPRESS, Porto, Portugal, 2017.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/626357
推荐阅读
相关标签
  

闽ICP备14008679号