2023-01-29clustering聚类和classification分类-1

无监督(例如clustering)和有监督(例如classification)学习的直观区别

  1. 无监督学习是指对无标签数据的一类学习算法。因为没有标签信息,意味着需要从数据集中发现和总结模式或者结构。
    我们基于数据中的变量之间关系利用聚类算法发现这种内在模式或者结构。
    无监督算法有:
    主成分分析法(PCA)
    异常检测法
    自编码算法
    深度信念网络
    赫比学习法
    生成式对抗网络
    自组织映射网络
  2. 监督学习是指数据集的正确输出已知情况下的一类学习算法。因为输入和输出已知,意味着输入和输出之间有一个关系,监督学习算法就是要发现和总结这种“关系”。
    监督算法常见的有:
    线性回归
    神经网络
    决策树
    支持向量机
    KNN
    朴素贝叶斯算法
    ————————————————
    版权声明:本文为CSDN博主「Briwisdom」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/u010420283/article/details/83758378

一、 clustering聚类(无监督)

给一些相似的样本分组,以揭示背后隐藏的结构。

聚类分析是数据挖掘中一个重要概念,其核心是寻找数据对象中隐藏的有价值的信息,根据相似性原则,把具有较高相似度的数据对象划分到同一类簇,把具有较高相异度的数据对象划分到不同类簇,从而使相同组中的数据点之间比其他组中的数据点更具有相似性。

  1. 没有标签
  2. 将样本点分类是基于它们彼此之间有“多接近”
  3. 鉴定数据的结构
  4. 度量:独立验证特征

clustering的2种途径

  1. 分区域(比如K均值聚类K-means)
    —将对象划分为互不重叠的集群,使每个数据对象恰好属于一个子集
    (1)K-means
    基本思路:
    假设有固定数量的K个簇;
    将点划分为K个紧凑簇
    算法:(K-Means聚类算法步骤实质是EM算法(最大期望算法(Expectation-Maximization algorithm, EM))的模型优化过程)
    首先,随机初始化K个簇中心
    然后,反复:-分配点到最近的中心-移动中心到重心点停止
    最后,收敛(不再重新分配)
    图片.png

    图片.png

    图片.png

    图片.png

    图片.png

    图片.png

    但是,有些样点几乎刚好在2个中心点的中间,该分配到哪个中心点去呢?→这就要分配部分权重,使用模糊k聚类算法fuzzy k - means,因此反过来,普通的k-means其实可以看做是模糊k聚类的一种特殊形式:
    图片.png

    k聚类其实就是EM算法

参考http://t.zoukankan.com/rong86-p-3517573.html

进一步的话,EM算法比k聚类更具有普适性

K-Means聚类算法的缺陷

该算法非常简单且使用广泛,但是主要存在以下四个缺陷:

1.K值需要预先给定,属于预先知识,很多情况下K值的估计是非常困难的,对于像计算全部微信用户的交往圈这样的场景就完全的没办法用K-Means进行。对于可以确定K值不会太大但不明确精确的K值的场景,可以进行迭代运算,然后找出对应的K值,这个值往往能较好地描述有多少个簇类;
2.K-Means算法对初始选取的聚类中心点是敏感的,不同的随机种子点得到的聚类结果完全不同;
3.该算法并不适合所有的数据类型。它不能处理非球形簇、不同尺寸和不同密度的簇;
4.易陷入局部最优解。

所以,可考虑层次聚类······

  1. 聚集(比如层次聚类hierarchical clustering)
    -一组嵌套的集群,按层次结构组织

层次聚类(其中的非加权组平均法UPGMA:unweighted pair group method with arithmetic-mean常用于系统发育树的构建)

层次聚类

Q:既然层次聚类可以随意划分类,那还拿k聚类来干啥?


图片.png

这里面可明白曼哈顿距离、欧氏距离、皮尔逊相关的差别
图片.png

图片.png

图片.png

二、classification分类(监督)

从数据中提取特征,将新元素分配给定义好的类(监督学习的任务就是学习一个模型, 应用这一模型, 对给定的输入预测相应的输出)

  1. 一些样本点是有标签
  2. 需要一个规则,能准确地将标签分配给新的点
  3. 子问题:特征的选择
  4. 度量:分类的准确度

常用分类算法:朴素贝叶斯、logistic回归、决策树、支持向量机

分类的2种途径:
(1)生成generative
-贝叶斯分类(例如朴素贝叶斯)
-用概率术语提出分类问题
-模型特征在不同类中的分布
-使用概率演算进行决策
(2)判别discriminative
-例如支持向量机
-没有底层分布的建模
-根据与边界的距离做出决定。
例如:基因发现:HMMs vs. CRFs

关于贝叶斯推理P(h|D) = P(D|h)P(h)/P(D)
这个公式怎么推出来的?看下面这个图:P(h|D) P(D)= P(D|h)P(h),是不是豁然开朗!?。?br>

图片.png

首先,补充背景介绍:在统计领域,有两种对立的思想学派:贝叶斯学派和经典学派(也称频率学派)。频率学派理解世界的底层逻辑是,一个随机事件的发生,是存在一个真实的/客观的概率的,只要我们做试验足够多,或者掌握的数据足够多,计算出来的随机事件发生的频率,就会无限接近这个真实的、客观的概率。而贝叶斯学派则信仰条件概率,贝叶斯推理则是针对第二类概率问题进行解答(概率问题分2大类:第一类是正向概率问题:我们知道原因,推测某个现象发生的概率;第二类是逆概率问题:看到了一些现象,要去推测背后的原因。)

http://08643.cn/p/c5be69431e43

这里P(D|h)代表广义上面的已知的概率,即先验概率;比如病症并判,患者成化验呈POS的概率=>P(POS|h);这个是先验的,什么叫先验?已经验证了的,即:基于结论,条件的概率,广而告之的,那么现在翻转一下,一个具体的患者,化验呈POS,那么他是患者的概率都大?问题=>P(h|POS),变成了后验概率了,什么是后验,后验就是基于条件,结论满足的概率多大?对于具体化的场景下,如何利用先验概率求得后验概率就是贝叶斯公式解决的问题。
https://zhuanlan.zhihu.com/p/98761298

参考资料

https://blog.csdn.net/qq_45797116/article/details/108407573

最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容