回归系列之入门篇

常见回归算法基础概念,参见下如下文章,个人感觉是介绍比较好的文章:

7 Types of Regression Techniques you should know!

下面引用少量上述文章中基础概念,本文不详细叙述具体概念, 重点总结下这些算法的适用场景、各自的优缺点等。

回归算法的分类

Paste_Image.png

回归算法的分类:根据目标变量的个数、因变量的类型以及回归的函数形状这三个维度对回归算法进行分类。

回归算法介绍

Linear Regression:(线性回归)

用一个因变量(Y)与多个自变量(x1,x2...)的关系,表达式如下所示:

Y = a + W * X

简单来说, 通过一条直线来拟合自变量与因变量之间的关系。参数W,a取不同的值, 会得不同的直线, 得到最优直线的过程就是线性回归的算法过程,也就是求解参数W,a的过程。最优直线的求解是基于最小二乘法(Ordinary Least Squares)。

线性回归的应用场景:

  1. 自变量和因变量之间是线性关系
  2. 适用于low dimension, 而且每一维之间都没有共线性。

线性回归的问题:

  1. 线性回归存在multicollinearity(共线性), autocorrelation(自相关), heteroskedasticity(异方差)等问题
  2. 线性回归对异常值非常敏感, 因此数据预处理时, 要警惕异常值。
  3. 模型参数的估计很不稳定, 模型中输入数据的微小差异都可能导致参数估计的很多差异。

Logistic Regression:(逻辑回归)

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。

55d3f6527f0aa.jpg

应用场景:

  1. 用于分类场景, 尤其是因变量是二分类(0/1,True/False,Yes/No)时我们应该使用逻辑回归。
  2. 不要求自变量和因变量是线性关系

存在的问题:

  1. 防止过拟合和低拟合,应该让模型构建的变量是显著的。一个好的方法是使用逐步回归方法去进行逻辑回归。
  2. 逻辑回归需要大样本量,因为最大似然估计在低样本量的情况下不如最小二乘法有效。
  3. 独立的变量要求没有共线性。

Polynomial Regression:(多项式回归)

如果一个回归,它的自变量指数超过1,则称为多项式回归。
与线性回归的区别, 图形是曲线,而不是直线。

应用场景与问题:

  1. 如下图, 适合非线性关系的回归关系。与线性回归相比, 对不是严格的线性关系的变量来说, 多项式回归拟合度更优,但也存在过度拟合的情况。


    Paste_Image.png

    PS. 特别是看向两端的曲线,看看这些形状和趋势是否有意义。

Stepwise Regression:(逐步回归)

在这个方法中选择变量都是通过自动过程实现的,不需要人的干预。
这个工程是通过观察统计值,比如判定系数,t值和最小信息准则(R-square, t-stats and AIC)等去筛选变量。逐步回归基本思想是:基于特定的标准加入或移除变量来拟合回归模型。

各个逐步回归算法:
1.标准逐步回归做两件事情:需要每一步它都会添加或移除一些变量。
2.前进法是开始于最显著的变量然后在模型中逐渐增加次显著变量。
3.后退法是开始于所有变量,然后逐渐移除一些不显著变量。

PS: 这个模型技术的目的是为了用最少的变量去最大化模型的预测能力。它也是一种降维技术。

Ridge Regression:(岭回归)

岭回归是模型表达方式, 非常类似于线性回归,只是在线性回归的基础上加入一个预测误差项。

y = a+ b1x1+ b2x2+....+e

预测误差项由两部份组成:一部分是偏差, 另一个部分是方差。
如下公式表示预测误差项:

Paste_Image.png

偏差是最小二乘法计算方法, 方差部分是为解决共线性问题,而引入的一个惩罚项 λ (lambda) * ||beta|| ^2, 其中beta是线性模型的自变量系数。加入惩罚项是让参数收敛在比较小的方差。

应用场景:

  1. 可以解决重共线性问题, 简单的说就是自变量之间有高度相关关系。
    问题:
  2. 不能将模型系数收敛为0, 因此岭回归没有特征选择功能。
    PS: ||beta||正则化, 采用的是L2 regularization

Lasso Regression:

Lasso回归,和岭回归非常类似,只是预测误差中方差部分不一样,
如下公式, 是lambda * ||beta||, 而不是lambda * ||beta||的平方。

Paste_Image.png

应用场景:

  1. Lasso回归的惩罚项能收敛参数到0, 能起到特征选择的功能。
  2. 如果一组自变量是高线性相关, lasso选择其中一个变量而将其他项收敛到0。

问题:

  1. Lasso回归是为解决岭回归不能进行变量选择问题而提出的, 但Lasso不能做group selection。
  2. Lasso存在不一致的问题。

PS: ||beta||正则化, 采用的是L1 regularization.

ElasticNet Regression:

简单来说, ElasticNet 回归是岭回归和Lasso回归的权重和, 公式如下所示

Paste_Image.png

这个回归算法的方差部分, 是lambda1 * || beta|| ^ 2 + lambda2 * ||beta||.
应用场景:

  1. 对选择的变量的数目没有影响。
  2. 这个回归算法存在双重收敛。
    问题:
  3. 引入adaptive lasso改善Lasso 的不一致性问题.
  4. 引入adaptive lasso改善不能group select问题.
最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容