无监督(例如clustering)和有监督(例如classification)学习的直观区别
- 无监督学习是指对无标签数据的一类学习算法。因为没有标签信息,意味着需要从数据集中发现和总结模式或者结构。
我们基于数据中的变量之间关系利用聚类算法发现这种内在模式或者结构。
无监督算法有:
主成分分析法(PCA)
异常检测法
自编码算法
深度信念网络
赫比学习法
生成式对抗网络
自组织映射网络- 监督学习是指数据集的正确输出已知情况下的一类学习算法。因为输入和输出已知,意味着输入和输出之间有一个关系,监督学习算法就是要发现和总结这种“关系”。
监督算法常见的有:
线性回归
神经网络
决策树
支持向量机
KNN
朴素贝叶斯算法
————————————————
版权声明:本文为CSDN博主「Briwisdom」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/u010420283/article/details/83758378
一、 clustering聚类(无监督)
给一些相似的样本分组,以揭示背后隐藏的结构。
聚类分析是数据挖掘中一个重要概念,其核心是寻找数据对象中隐藏的有价值的信息,根据相似性原则,把具有较高相似度的数据对象划分到同一类簇,把具有较高相异度的数据对象划分到不同类簇,从而使相同组中的数据点之间比其他组中的数据点更具有相似性。
- 没有标签
- 将样本点分类是基于它们彼此之间有“多接近”
- 鉴定数据的结构
- 度量:独立验证特征
clustering的2种途径
- 分区域(比如K均值聚类K-means)
—将对象划分为互不重叠的集群,使每个数据对象恰好属于一个子集
(1)K-means
基本思路:
假设有固定数量的K个簇;
将点划分为K个紧凑簇
算法:(K-Means聚类算法步骤实质是EM算法(最大期望算法(Expectation-Maximization algorithm, EM))的模型优化过程)
首先,随机初始化K个簇中心
然后,反复:-分配点到最近的中心-移动中心到重心点停止
最后,收敛(不再重新分配)
但是,有些样点几乎刚好在2个中心点的中间,该分配到哪个中心点去呢?→这就要分配部分权重,使用模糊k聚类算法fuzzy k - means,因此反过来,普通的k-means其实可以看做是模糊k聚类的一种特殊形式:
K-Means聚类算法的缺陷
该算法非常简单且使用广泛,但是主要存在以下四个缺陷:
1.K值需要预先给定,属于预先知识,很多情况下K值的估计是非常困难的,对于像计算全部微信用户的交往圈这样的场景就完全的没办法用K-Means进行。对于可以确定K值不会太大但不明确精确的K值的场景,可以进行迭代运算,然后找出对应的K值,这个值往往能较好地描述有多少个簇类;
2.K-Means算法对初始选取的聚类中心点是敏感的,不同的随机种子点得到的聚类结果完全不同;
3.该算法并不适合所有的数据类型。它不能处理非球形簇、不同尺寸和不同密度的簇;
4.易陷入局部最优解。
所以,可考虑层次聚类······
- 聚集(比如层次聚类hierarchical clustering)
-一组嵌套的集群,按层次结构组织
层次聚类(其中的非加权组平均法UPGMA:unweighted pair group method with arithmetic-mean常用于系统发育树的构建)
Q:既然层次聚类可以随意划分类,那还拿k聚类来干啥?
二、classification分类(监督)
从数据中提取特征,将新元素分配给定义好的类(监督学习的任务就是学习一个模型, 应用这一模型, 对给定的输入预测相应的输出)
- 一些样本点是有标签
- 需要一个规则,能准确地将标签分配给新的点
- 子问题:特征的选择
- 度量:分类的准确度
常用分类算法:朴素贝叶斯、logistic回归、决策树、支持向量机
分类的2种途径:
(1)生成generative
-贝叶斯分类(例如朴素贝叶斯)
-用概率术语提出分类问题
-模型特征在不同类中的分布
-使用概率演算进行决策
(2)判别discriminative
-例如支持向量机
-没有底层分布的建模
-根据与边界的距离做出决定。
例如:基因发现:HMMs vs. CRFs
关于贝叶斯推理P(h|D) = P(D|h)P(h)/P(D)
这个公式怎么推出来的?看下面这个图:P(h|D) P(D)= P(D|h)P(h),是不是豁然开朗!?。?br>
首先,补充背景介绍:在统计领域,有两种对立的思想学派:贝叶斯学派和经典学派(也称频率学派)。频率学派理解世界的底层逻辑是,一个随机事件的发生,是存在一个真实的/客观的概率的,只要我们做试验足够多,或者掌握的数据足够多,计算出来的随机事件发生的频率,就会无限接近这个真实的、客观的概率。而贝叶斯学派则信仰条件概率,贝叶斯推理则是针对第二类概率问题进行解答(概率问题分2大类:第一类是正向概率问题:我们知道原因,推测某个现象发生的概率;第二类是逆概率问题:看到了一些现象,要去推测背后的原因。)
这里P(D|h)代表广义上面的已知的概率,即先验概率;比如病症并判,患者成化验呈POS的概率=>P(POS|h);这个是先验的,什么叫先验?已经验证了的,即:基于结论,条件的概率,广而告之的,那么现在翻转一下,一个具体的患者,化验呈POS,那么他是患者的概率都大?问题=>P(h|POS),变成了后验概率了,什么是后验,后验就是基于条件,结论满足的概率多大?对于具体化的场景下,如何利用先验概率求得后验概率就是贝叶斯公式解决的问题。
https://zhuanlan.zhihu.com/p/98761298