机器学习面试之数据降维

PCA(主成分分析)和LDA(线性判别分析,Fisher Linear Discriminant Analysis)都是数据降维的一种方式。但是,PCA是无监督的,而LDA是有监督的。

一、PCA

在PRML书上有两种定义PCA的方式,其中一种将PCA定义为一种正交投影,使得原始数据在投影子空间的各个维度的方差最大化。

对于观测数据x(D维空间),我们的目标是把数据投影到一个更低的M维中。原始数据集的均值向量可以表示成:

投影之后的均值向量可以表示成:

投影之后的方差:

S是协方差矩阵:

PCA是为了最大化该方差,变成一个约束优化问题。引入拉格朗日乘子lambda1,该优化问题变为:

直接对u1求导,令导数为0,得到:

即u1是S中lambda1特征值对应的特征向量。对于上式,等号两边同乘以u1转置,则可得方差为:

因此,lambda1为S的最大的特征值。

此外,我们可以根据各维度的包含的信息量(能量)来选择投影空间的维度M。

二、LDA

LDA(这里指Fisher's Linear Discriminant Analysis)把线性分类看成是数据降维的一种应用。对于二分类问题,假设输入D维向量x,我们通过线性变换把他投影到一维空间:

我们需要让投影之间的两个类之间的差距尽可能的大。假设两类数据的均值为:

最简单的方法是让投影后的两个类的均值相差越大越好,即使得下式最大:

同时满足:

那么解该约束优化问题,得到:

即w是两类数据中心点连线构成的平行矢量,如左图:

但是两类点虽然有分开,但是中间有重叠。Fisher的观点认为,让两类点分开的同时,也要让两类数据的方差最小,最后变成右图。类内方差表示为:

yn为投影后的值

则总体类内方差为:

Fisher判别准则定义为类间方差和类内方差的比值:

把w带入表达式:

其中SB为类间协方差矩阵,Sw为类内协方差矩阵:

对(1)式求导,令导数为0(为了方便,可将该式取对数),得:

从(2)式看出,SBw是始终与m2-m1平行的,同时我们并不在意w的大小,只在意它的方向。因此,可以把(3)中括号中的两项去掉,在(3)式左乘Sw的逆矩阵,就得到:

即Fisher线性判别器。找到合理的投影方向后,可以通过极大似然估计求出最优的分类阈值。

三、PCA与LDA的区别

首先,PCA与LDA的监督方式不同。

第二,他们的目的也不同。PCA是为了去除原始数据中冗余的维度,让投影子空间的各维度的方差尽可能的大,即熵尽可能的大。LDA是通过数据降维找到那些具有判别性的维度,使得原始数据在这些维度上投影,不同类别尽可能的分隔开。下图展示其中的区别。

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容