当前位置:   article > 正文

机器学习在网络安全领域的应用(四)_机器学习在安全领域的特征处理

机器学习在安全领域的特征处理

       本节从应用软件安全、社会网络安全两个方面,介绍机器学习在应用安全中的相关研究工作。其中,应用软件安全主要包括垃圾邮件检测、PDF恶意软件检测、恶意网页检测;社会网络安全主要包括社交网络异常账号检测、信用卡欺诈检测、取证分析、网络舆情。

应用软件安全:

      (一)垃圾邮件检测

         垃圾邮件的检测可以抽象为机器学习中的分类问题,最简单的分类可定义为{-1,1},-1代表非垃圾邮件:1代表垃圾邮件。为了将垃圾邮件定义为文本分类问题,首要将垃圾邮件文本信息进行数值化表示,每条消息通常表示为一组向量,特征向量中的元素代表了垃圾邮件中的特征值。(若干数据预处理过程,例如垃圾信息的词汇处理、数据清洗、降维、归一化),之后选择适当的机器学习分类算法。

         另外,垃圾邮件的识别是典型的在线应用,因此如何能够在邮件识别过程中自动的实现分类器的更新是未来的研究方向之一。

       (二)基于URL的恶意网页识别

        恶意网页代码通常指在用户访问网页时能够窃取用户隐私、安装恶意程序或执行恶意代码的网页集合。机器学习对于恶意网页的检测主要有以下两种方法,分为基于分类方法的恶意网页识别和基于聚类方法的恶意网页识别。

       基于分类方法的恶意网页识别,通常将该问题抽象为机器学习的二分类问题,首先根据已标记URL数据集进行特征提取,常用的静态特征包括主机信息、URL信息和网页信息等,动态特征主要包括游览器行为、URL的重定向信息、网页跳转关系等;对上述特征进行归一化处理,归一化后特征的取值用{0,1}表示,已知的网页标记用{0,1}表示,{0}代表正常网页,{1}代表恶意网页,然后选择决策树、贝叶斯网络、SVM、逻辑回归等分类算法构造分类器。

       基于聚类的恶意网页识别,首先将网页采集的URL数据集中提取连接关系、URL特征、网页文本信息等特征,通常采用{0,1}标识;然后根据聚类算法,将URL数据集划分为若干聚类。同一聚类的URL数据之间具有较高的相似性,而不同聚类的URL数据之间的相似度较低。最后根据已标记数据的聚类结果,对待测URL识别是否是恶意网页。

       另外,由于海量网页带来的海量特征,容易产生高纬特征空间,因此需要在这里考虑降维处理。

                              


   (三)恶意PDF的检测

         恶意PDF是指在正常的PDF文件中嵌入恶意代码。利用机器学习检测PDF文档大多采用PDF文档内容或结构为特征,虽然取得了良好的效果,但是近年来,攻击者通过改变PDF结构或随机修改恶意代码成功躲避PDF分类器的检测。从恶意PDF文件的功防两方研究来看,无论文件内容还是文件结构为特征都不能训练出可靠的PDF分类器,训练出的分类器存在很大盲区,因此未来需要考虑深度学习等 自动提取恶意PDF的特征。

社会网络安全:

       与机器学习相关的社会网络安全研究主要集中在社交网络异常账号检测、信用卡欺诈检测、取证分析以及网络舆情。

   (一)社交网络异常账号检测

       社交网络中存在着大量的虚假账号和被盗用的账号,这类账号被称为异常账号。利用机器学习技术检测社交网络异常账号,根据检测特征不同分为基于账号行为的检测方法、基于消息内容的检测方法。

        基于账号行为的检测方法关键在于如何选取账号行为特征及检测算法,目前常选取的行为特征有:用户的个人信息、用户行为、账号创建时间、每天发布消息数量以及好友关系等;之后选择随机森林等分类器。

        基于消息内容的异常账号检测,是根据异常账号所发布的内容与正常找好所发布内容的相似程度检测,该方法采用的特征是消息本身。

                

        但是目前并没有取得良好的效果,未来可以利用深度学习深度增强学习等技术深度挖掘社交网络账号的行为及内容特征。

 (二)信用卡欺诈检测

      信用卡欺诈交易比合法交易少很多,经济损失依赖于交易次数和其他因素,因此信用卡欺诈数据具有稀疏性、非平衡性以及环境复杂性。信用卡欺诈检测从数据预处理、属性特征选取、机器学习算法选取等方面作了优化研究,然而直接应用机器学习的各类算法并不能取得较好的检测效果,因为信用卡交易数据具有稀疏性和平衡性等问题。因此,训练数据的选取和预处理是信用卡欺诈研究的难点,未来可利用聚类等方法识别隐藏在数据中的特征属性,另外也可利用深度学习自动提取信用卡交易特征属性值。

  (三)取证分析

     取证分析常被用来调查诈骗、侵占知识产权、入侵攻击等犯罪行为,常见的取证技术包括电子取证、计算机取证和网络取证,相应的证据包括电子设备、计算机、网络运行过程中反映事实的数字信息或数据。

     目前基于机器学习的取证分析技术处于起步阶段,大多数研究仅提供一种技术方案,典型的有利用机器学习技术识别文件中的伪造笔记。

  (四)网络舆情

     网络舆情是在网络空间下网民对事件的态度、意见及其影响力的集合以下是一个机器学习公共危害事件实时识别框架,这方面的研究仍在起步之中,是未来的热门方向之一。

                                                      


 


声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/608716
推荐阅读
相关标签
  

闽ICP备14008679号