(十一) 异常检测分析

此部分内容来自对《Python数据分析与数据化运营》4.5节 异常检测 的读书笔记。
数据中的异常数据通常被认为是异常点、离群点或孤立点,特点是这些数据的特征与大多数数据不一致,呈现出异常的特点,检测出这些数据的方法称为异常检测。
常用的异常检测方法分为基于统计的异常检测方法(如基于泊松分布、正态分布等分布规律找到异常分支点)、基于距离的异常检测方法(如基于K均值找到离所有分类最远的点)、基于密度的离群检测方法、基于偏移的异常检测方法、基于时间序列的异常检测方法。
异常检测常用于异常订单识别、风险客户预警、黄牛识别、贷款风险识别、欺诈检测、技术入侵等针对个体的分析场景。

12.1 异常检测中的“新奇检测模式”

1.离群点检测
大多数场景下我们定义的异常数据都属于离群点数据,离群点检测的训练数据集中包含“离群点”数据,对这些数据训练完之后再在新的数据集中寻找异常数据。
2.新奇检测
所谓新奇检测是识别新的或未知数据模式和规律的检测方法,这些规律和知识在已有机器学习系统的训练集中没有被发掘出来。
新奇检测主要应用于新的模式、主题、趋势的探索和识别。
新奇检测和异常检测有关,一开始的新奇点往往都以一种离群的方式出现在数据中,这种离群方式一般被认为是离群点,因此二者的检测和识别模式非常类似。但是,当一段时间之后,新奇数据一旦被证实为正常模式,新奇数据就不再属于异常值的范畴。

12.2 将数据异常与业务异常相分离

数据异常只是数据层面的离群分布,而这些离群分布未必都是业务意义上的“异?!保芏嗍焙蚴莸囊斐J嵌蕴厥庠擞刺姆从?,因此属于数据异常单业务正常的范畴。

12.3 面临维度灾难时,异常检测可能会失效

当原始数据集的维度非常多时,普通的异常检测方法可能会失效,原因是随着维度的增加,数据之间的相似程度将严重受到维度数量的影响。
解决高维空间下的异常检测问题,通常有三种思路:

  • 扩展现有的离群点检测模式
  • 发现子空间中的离群点
  • 对高维数据进行建模
    在异常检测面对高维数据集时,跟聚类遇到的问题非常类似。

12.4 异常检测的结果能说明异常吗

在做异常检测分析时,输出的结果是永辉是否异常的标签,如1,-1,这种标签只是客观上基于数据相似度或密度的识别结果。但是,即使在业务没有任何特殊动作导致的“假异?!钡那疤嵯?,仍然无法判断结果是否真的异常。
异常检测的结果要根据实际情况,由业务介入做进一步筛查和审核。
在大多是场景下,通过非监督式方法实现的异常检测的结果只是用来缩小排查范围,为业务的执行提供更加精准和高效的执行目标而已。

Python异常分析

sklearn中提供了one-class SVM和EllipticEnvelope两种方法用于异常检测,前者基于libsvm实现的非监督式异常检测方法,可用于做高维度分布的评估;后者只能做基于高斯分布数据集的异常检测。

OneClassSVM
one-class SVM用于异常检测,它的基本原理是在给定的一组样本中,检测数据集的边界以便于区分新的数据点是否属于该类。它是基于密度检测的一种,属于无监督学习算法。one-class SVM属于SVM的一种,可用于高维数据的异常检测。

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容