当前位置:   article > 正文

python机器学习之异常检测与主成分分析

python机器学习之异常检测与主成分分析

前言

  • 根据输入数据,对不匹配预期模式的数据进行识别

在这里插入图片描述

检测分类

  • 监督式异常检测:提前使用带“正常”与“异常”标签的数据对模型进行训练,机器基于训练好的模型判断新数据是否为异常数据
    在这里插入图片描述

  • 无监督式异常检测:通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常

在这里插入图片描述

检测原理

  • 基于数据分布,寻找与其他数据最不匹配的实例,寻找发生可能性低的数据(事件)
    在这里插入图片描述
  • 概率是一个在0到1之间的实数,是对随机事件发生可能性的度量,反映某种情况出现的可能性(likelihood)大小。
    在这里插入图片描述
  • 在连续分布事件中,用于描述连续随机变量的输出值在某个确定的取值点附近的可能性的函数,通过其可计算取值点附近区间发生事件的概率。(正态分布)

在这里插入图片描述

实战:异常消费行为检测

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
  • 1
  • 2
  • 3
  • 读取数据
# 读取数据
data = pd.read_csv('task1_data.csv')
  • 1
  • 2
data.head(),data.shape
  • 1

在这里插入图片描述

  • 数据可视化
# 数据可视化
fig1 = plt.figure(figsize=(8,6))
plt.scatter(data.loc[:,'frequency'],data.loc[:,'payment'],marker='x')
plt.title('raw data')
plt.xlabel('frequency')
plt.ylabel('payment')
plt.show()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

在这里插入图片描述

  • 数据赋值
# 数据赋值
x1 = data.loc[:,'frequency']
x2 = data.loc[:,'payment']
# 数据分布频次图
fig2 = plt.figure(figsize=(20,5))
fig2_1 = plt.subplot(121)
plt.title('frequency data')
plt.xlabel('frequency')
plt.ylabel('counts')
plt.hist(x1,bins=100)

fig2_2 = plt.subplot(122)
plt.title('payment data')
plt.xlabel('payment')
plt.ylabel('counts')
plt.hist(x2,bins=100)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

在这里插入图片描述

  • 计算数据均值,标准差,绘制高斯分布图

fig5 = plt.figure(figsize=(20,5))
fig5_1 = plt.subplot(121)
# 计算数据均值,标准差
# 均值
x1_mean = x1.mean()
# 标准差
x1_std = x1.std()

# 计算对应的高斯分布数值:
from scipy.stats import norm
# 生成0-10区间的三百个点
x1_range = np.linspace(0,10,300)
# 生成分布区间对应的关键参数
normal1 = norm.pdf(x1_range,x1_mean,x1_std)
# 可视化高斯分布曲线
plt.plot(x1_range,normal1)

'''第二张'''
fig5_2 = plt.subplot(122)
# 计算数据均值,标准差
# 均值
x2_mean = x2.mean()
# 标准差
x2_std = x2.std()

# 计算对应的高斯分布数值:
from scipy.stats import norm
# 生成0-10区间的三百个点
x2_range = np.linspace(0,10,300)
# 生成分布区间对应的关键参数
normal2 = norm.pdf(x2_range,x2_mean,x2_std)

# 可视化高斯分布曲线
plt.plot(x2_range,normal2)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35

在这里插入图片描述

    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/286994
    推荐阅读
    相关标签
      

    闽ICP备14008679号