赞
踩
孤立森林是以递归方式划分数据集的各个树结构的集合。对于该过程的每一次迭代,都会选择一个随机特征,然后根据在所选特征的最小值和最大值之间随机选择一个值对数据划分。重复此过程,直到对整个数据集进行划分,在森林重形成一个单独的树。一般情况下,异常与根位置之间的路径比正常数据点短的多,因为他们更容易被隔离。
注:可以使用一个涉及平均路径长度的数据点函数来找出异常分数
换句话说,目的就是不断切割子空间,最终每个子空间只有一个数据点为止,密度比较大的簇需要多次切分才能切分剩余一个数据点,而密度很低的簇很快会被切分为一个数据点,如上图所示:黑色的点为异常点,白色的点为正常点。举个例子如下所示, d最先被分割出来,说明d最有可能异常:
模型训练阶段如同上述描述的那样,模型测试阶段每一个测试样本的异常分数有平均路径长度得到,平均路径长度是通过孤立森林每一颗树得到
- from sklearn.ensemble import IsolationForest
-
-
- isolation_forest = IsolationForest(n_estimators=100, # 使用树的数量
- max_samples=256, # 应该构建树的最大数据点数
- contamination=0.1, # 被认为是异常/离群值的估计百分比
- random_state=42) # 随机数生成器
-
- isolation_forest.fit(data)
-
-
- anomaly_scores = isolation_forest.decision_function(data)
-
-
参考链接:
1、https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html
2、python深度学习异常检测
3、阿里技术-异常检测的N种方法
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。