大家都很清楚SPC的中文叫统计过程控制,它的作用是发现过程数据中的异常行为,SPC有8种以上的判异规则,每一中判异规则对应可能的异常原因,非常实用。
现在大数据、机器学习应用越来越广泛,而机器学习算法的一个常见应用就算异常检测,接下来的一系列内容的更新都会分别介绍不同的机器学习算法来进行异常检测,包括算法基本原理、系统实现和应用。
注意:SPC是异常判定的一种方法,其他机器学习同样可以做异常判定,不要认为标题的K均值算法是SPC哦,标题而已。但我们可以把其他异常判定算法的异常判定结果放到SPC控制图中。
本文介绍的是一种叫做K-mean(k均值)的聚类分析方法。
“ 聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息,顾客分类,文章分类等。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。”
K均值算法过程如下:
- 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。
- 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。
- 计算每一类中中心点作为新的中心点。
- 重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点,然后选择运行结果最好的一个。
随机选择2个点(k=2)C1和C2,将剩下的所有点,根据距离C1和C2的距离的远近,划分给C1或者C2
根据获得的两类点,重新计算两类点中的质心(到该类所有点的距离最短)重新将所有的点归到两个新的质心的其中之一。 重复上面的过程,直到每一类中心在每次迭代后变化不大为止。
k均值Python实现算法如下:
简单一点,我们用一维数据来演示(检测数据很多是一维的)。
1)导入机器学习模块(这里我们使用了scikit-learn)
<pre style="box-sizing: border-box; margin: 0px 0px 1rem; padding: 0px; border: none; outline: none; -webkit-tap-highlight-color: transparent; font-family: SFMono-Regular, Menlo, Monaco, Consolas, "Liberation Mono", "Courier New", monospace; font-size: 14px; overflow: auto; display: block; color: rgb(33, 37, 41); -webkit-font-smoothing: antialiased; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 300; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial;"> import pandas as pd import numpy as np from sklearn.cluster import KMeans
</pre>
2)算法实现
<pre style="box-sizing: border-box; margin: 0px 0px 1rem; padding: 0px; border: none; outline: none; -webkit-tap-highlight-color: transparent; font-family: SFMono-Regular, Menlo, Monaco, Consolas, "Liberation Mono", "Courier New", monospace; font-size: 14px; overflow: auto; display: block; color: rgb(33, 37, 41); -webkit-font-smoothing: antialiased; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 300; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial;"> y =[470,509,500,511,435,489,483,483,482,483,504,472,464,481,501,581,507,558,569,467,382,464,482,474,482,478,477,536,485,502,489,507,432,507,470,482,485,482,505,470,487,476] km = KMeans(n_clusters=2) km.fit(y) y['fcst'] = km.predict(y)
</pre>
输入一个y,定义分成两类(自动一类正常,一类不正常), 字段fcst记录了预测的分类结果,有两个分类0和1,但我们不知道哪一类才算正常,我们一个合理的假定,分类中多的是正常的,少的是异常的。
3)异常判定的处理
<pre style="box-sizing: border-box; margin: 0px 0px 1rem; padding: 0px; border: none; outline: none; -webkit-tap-highlight-color: transparent; font-family: SFMono-Regular, Menlo, Monaco, Consolas, "Liberation Mono", "Courier New", monospace; font-size: 14px; overflow: auto; display: block; color: rgb(33, 37, 41); -webkit-font-smoothing: antialiased; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 300; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial;"> `label0 = y[y.fcst==0]['fcst'].count()
label1 = y[y.fcst==1]['fcst'].count()
if label1<=label0:
y['isAbnormal ']=y['fcst']
else:
y.loc[y['fcst'] == 0, 'isAbnormal'] = 1
y.loc[y['fcst'] == 1, 'isAbnormal'] = 0
y.columns = ['data','fcst','isAbnormal']
y['isAbnormal']= y['isAbnormal'].astype(int)
y = y[['data','isAbnormal']]`
</pre>
记录分类为1的数量和分类为0的数量,最终用字段isAbnormal记录是否异常,0为正常,1为异常。
结果如下:
至此,我们已经完成了一种机器学习的异常检测。
SPC系统实现:
接下来看看我们在SPC系统上的实现。
我们把K均值算法得到的异常点,直接显示在SPC控制图上,请看下图。也可以选择不显示。
这样我们就可以在SPC控制图上显示其他异常判定算法的异常判定结果了。现在知道机器学习怎么和SPC结合在一起如何使用了吧。
如果你想了解上面的功能的测试,
下方链接可以在线体验和上图完成一样的功能。