机器学习实战-决策树

1、背景

决策树模型

以上就是之前见过的树状模型,但这里它代表着决策树直观的表达形式。其特殊意义在于,没个叶节点,代表着要划分的类别;除叶节点以外的节点,是待分类项的各个属性。这里比较简单的是最终分类的类别是两个类别,没个属性的取值只有两个取值,所以以上便生成了一个简单的二叉树。在建立这个模型的基础上,假如我们有如下数据需要判断这个人是否死亡:

实例

根据以上二叉树带入各个的值,很容易便得出结论是:survived。所以能看出决策树分类算法用来分类优点在于:计算复杂度不高,数据结果易于理解,对中间值缺失不敏感,可处理不相关特征的数据。具体我们下文会阐述。所以决策树模型关键的部分来啦,就是如何通过训练数据,来很快的得出以上的树形结构呢?

2、基于信息增益的决策树分类算法实现-ID3

再回刚才那个例子,数据有三个属性。其中最终的点很明显,就是用哪个属性作为根,以及再选取哪个属性作为根的子节点。即需要建立数学模型,使得选取一个属性计算的值,优于选取其它。

所以这里便有人提出啦基于信息增益来实现的方法。

(1)信息与信息熵

我们先来假象这样一个场景:如果以上的例子中只用一个Age属性就能区别结果的化,是否还需要生成以上复杂的二叉树呢?肯定是没有必要的,只需要单个跟配俩叶子的简单二叉树就能解决这个问题。

再进一步,如果用Age可以区分90%的情况,再往下还得依靠一点点sibsp属性来判断一下,是不是只需要先用Age区分,再配上个sibsp的节点就可以实现分类呢?

当然,这两种情况并不是说其它属性并不能加在二叉树当中,加上并不是不好,只是说没有必要。(而且还有时候,节点加的太多甚至还会有过拟合的现象发生)

那以上只是个并不准确的猜想和描述,那需要怎么量化的解释这个事情呢?

有人就引入了信息论的一些概念。

所谓信息:信息就是被消除的被确定性。比如刚刚过去的世界杯,假如有场比赛,谁能赢呢?这就是一个不确定性;但如果告诉你这场比赛是巴西跟中国踢,然后第二天有个人跑来告诉你个“信息”:巴西赢比赛;你怎么想?你肯定会说,用你来告诉我,想都会想巴西会赢啊。所以这个人告诉你信息是价值很低的信息,或者说几乎无用的信息。

另一个场景就是谁能是冠军呢?如果让你来猜将会有32种可能,你很难猜出来。但如果有人告诉你决赛是法国和克罗迪亚。你根据这个信息便更容易的能猜出谁是冠军。所以这个消息很有价值,对于你消除不确定有很大帮助。

所以说了这么一大堆,我们能体会到消息是有大有小的,是可以被量化的。那基于此,便引入了香农的信息熵概念:

信息熵

某个分类Xi携带的信息量为:

信息量

那么信息熵就是所有类别信息量的期望,其中p(Xi)表示这个分类的概率。

(2)信息增益

现在通过信息量的公式,我们可得出假如给上述三个属性的样本,能计算出这个训练集本身的信息量。如果选取某个属性划分后,剩下的数据量信息便少,则这个属性用来划分更为合理。因为剩下的数据可认为没有什么价值,或价值没那么多啦。

信息增益

即用原来的信息熵减去重新划分后的信息熵得到的值,其中Dv表示按照某属性划分后如果存在V个可能取值后的数据量。

所以建立决策树便编程了先计算数据集的熵,再便利各个属性分别计算各自的熵,再计算信息增益,选取信息增益大的,作为节点,再循环这个属性的各个取值并递归生成后续的节点。

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容

  • 决策树 优点: 计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点: 可能会产...
    KaitoLucifer阅读 495评论 0 0
  • 构建决策树的思想: 需要解决的第一个问题就是当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征...
    潘雪雯阅读 509评论 0 1
  • 简述 本章构造的决策树算法能够读取数据集合,构建类似于图3-1的决策树。决策树很多任务都 是为了数据中所蕴含的知识...
    芮芮cat阅读 374评论 0 1
  • 决策树 决策树是一个选择的过程,以树的结构来展示,其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性...
    z3r0me阅读 290评论 0 0
  • 无题二首/大漠 冬日最难熬,值班像坐牢。 幸有五色苋,插绿弄花草。 碌碌又一年,屈指算那班。 风水依旧换,休假又跑偏。
    大漠qxy阅读 130评论 0 0