从机器学习的角度来看,大数据不过是训练各类参数、概率分布模型的输入。合适的、经过筛选的、符合事物客观特征描述的大数据方才是好的数据,故在目前这个所谓“泛大数据时代”,数据确实是最为精贵的资源,但并不是所有数据都是,我们只能去芜存菁方可认清数据的本质以及事物(包括人类自身)的本质。因此对于数据的处理反而变成了最最重要的问题。
从经典定义来看,机器学习对于特性输出的提高,其最重要关键点不在算法(当然,好的算法也是非常重要的基础,是成功的必要条件,是减少开销、尽量少的消耗资源的核心)而是在于是否占有更大、更好的数据,从而训练出更为出色的模型,其输出主要是各类参数,至少在“弱人工智能时代”,其价值也是在于这些参数。因为人工智能的定义更为宽泛,它包含一些不多的、不主要依赖于数据学习的方法,AI这个大概念不是我们讨论的要点。以神经网络为例,定理告诉我们对于任何连续函数,可以以任意精度去逼近,先决条件是隐层的神经元越多越好。
对于机器学习而言,最重要目标是对客观数据进行分类,其它任务已经变得不太重要了。无论我们谈到的支持向量机、神经网络、聚类等等无不是基本围绕分类这个主题进行的!
以我的观点来看,信息安全本质是提供可信、可靠的服务和数据(注意,这个定义的修饰词不仅仅是可信,还有可靠,存在一定区别,因为我们不能忽视DOS/DDOS***,这会造成服务的不可靠而不是不可信,这个观点与吴瀚清略有所区别)。但目前我们可能还是无法直接运用机器学习的方法来规避DDOS***,因为无论在网络层还是应用层,抵御网络/应用的DDOS***还是传统方法,即引流/WAF,虽然能从这些数据中学习到***数据的特征,但一旦错误地丢弃一个网络数据包就可能造成用户的投诉,而且可能你还没有学习完,***已经结束、服务已经停止,所以我们的着眼点还是在于机器学习在可信这个环节上。