机器学习教程之3-逻辑回归(logistic regression)的sklearn实现

0.概述

线性回归不仅可以做回归问题的处理,也可以通过与阈值的比较转化为分类的处理,但是其假设函数的输出范围没有限制,这样很大的输出被分类为1,较少的数也被分为1,这样就很奇怪。而逻辑回归假设函数的输出范围是0~1。

当数据集中含有误差点时,使用线性回归相应的误差也会很大。

逻辑回归其实是分类算法,但是由于历史原因被称为逻辑回归。

逻辑回归的假设函数以线性回归的假设函数为基础,通过S形函数进行复合形成的复合函数

虽然逻辑回归代价函数线性回归代价函数在形式上是一样的,但是假设函数不一样,因而实际上是不一样的。

逻辑回归是一种非常强大,甚至可能世界上使用最为广泛的一种分类算法。

1.分类问题

逻辑回归是一种分类算法

在分类问题中,要预测的变量y是离散的值

逻辑回归是目前最流行使用最广泛的一种学习算法

2.假说表示

假设函数的要求:由于逻辑回归这种分类器要求的输出值在0和1之间,因此需要想出一个满足预测值在0到1之间的假设函数

逻辑回归的假设模型

image

其中,X代表特征向量,g代表逻辑函数(logistic function)是一个常用的逻辑函数为S形函数(Sigmoid function)

S形函数(Sigmoid function):

image

该函数的图像为:


image

合起来,我们得到逻辑回归模型的假设:


image

hθ(x)的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1 的可能性(estimated probablity)即


image

假设函数的值为0.7,则表示有70%的几率y为正向类。

3.决策边界

决策边界(decision boundary)由假设函数决定,理论上可以为任意曲线。

4.代价函数

对于线性回归模型,代价函数是所有模型误差的平方和。但是在逻辑回归中,假设函数带入到误差平方和模型中,假设函数将会是一个非凸函数(non-convex function),这样有许多局部最小值,这将影响梯度下降算法寻找全局最小值。

逻辑回归的代价函数

image

,其中


这里写图片描述

将构建的 Cost(hθ(x),y)简化如下:


image

逻辑回归的代价函数是关于输入变量theta 0、theta 1、…、theta n的一个函数。
带入代价函数得到:


image

在得到这样一个代价函数以后,我们便可以用梯度下降算法来求得能使代价函数最小的参数了。

梯度下降

image

求导后得到:


image

5.简化的代价函数和梯度下降

逻辑回归和线性回归的梯度下降公式看上去一样,都是:


image

但是其假设函数不一样
线性回归假设函数:


image

逻辑回归假设函数:


image

6.高级优化

除了梯度下降法,还有共轭梯度法、BFGS(变尺度法)和L-BFGS(限制变尺度法),这三种算法的优点是不需要手动选择学习率,比梯度下降法快,缺点是更加复杂。

7.多类别分类:一对多

我们将谈到如何使用逻辑回归 (logistic regression)来解决多类别分类问题,具体来说,可以通过一个叫做”一对多” (one-vs-all) 的分类算法。
假设一个训练集有三个类别,可以转化为三个两元分类的问题。
最后,在我们需要做预测时,我们将所有的分类机都运行一遍,然后对每一个输入变量,都选择最高可能性的输出变量。
各种可能性的概率之和为1。

8.代码

(1)原始模型

"""
功能:逻辑回归
说明:
作者:唐天泽
博客:http://blog.csdn.net/u010837794/article/details/
日期:2017-08-14
"""

"""
导入项目所需的包
"""
import numpy as np
import matplotlib.pyplot as plt

# 使用交叉验证的方法,把数据集分为训练集合测试集
from sklearn.model_selection import train_test_split

from sklearn import datasets
from sklearn.linear_model import LogisticRegression

# 加载iris数据集
def load_data():
    diabetes = datasets.load_iris()

    # 将数据集拆分为训练集和测试集 
    X_train, X_test, y_train, y_test = train_test_split(
    diabetes.data, diabetes.target, test_size=0.30, random_state=0)
    return X_train, X_test, y_train, y_test

# 使用LogisticRegression考察线性回归的预测能力
def test_LogisticRegression(X_train, X_test, y_train, y_test):
    # 选择模型
    cls = LogisticRegression()

    # 把数据交给模型训练
    cls.fit(X_train, y_train)

    print("Coefficients:%s, intercept %s"%(cls.coef_,cls.intercept_))
    print("Residual sum of squares: %.2f"% np.mean((cls.predict(X_test) - y_test) ** 2))
    print('Score: %.2f' % cls.score(X_test, y_test))

if __name__=='__main__':
    X_train,X_test,y_train,y_test=load_data() # 产生用于回归问题的数据集
    test_LogisticRegression(X_train,X_test,y_train,y_test) # 调用 test_LinearRegression

Coefficients:[[ 0.40051422 1.30952762 -2.09555215 -0.9602869 ]
[ 0.3779536 -1.39504236 0.41399108 -1.09189364]
[-1.66918252 -1.18193972 2.39506569 2.00963954]], intercept [ 0.24918551 0.81149187 -0.97217565]
Residual sum of squares: 0.11
Score: 0.89

(2)在(1)的基础上使用多分类参数

"""
功能:逻辑回归
说明:
作者:唐天泽
博客:http://blog.csdn.net/u010837794/article/details/
日期:2017-08-14
"""

"""
导入项目所需的包
"""
import numpy as np
import matplotlib.pyplot as plt

# 使用交叉验证的方法,把数据集分为训练集合测试集
from sklearn.model_selection import train_test_split

from sklearn import datasets
from sklearn.linear_model import LogisticRegression

# 加载iris数据集
def load_data():
    diabetes = datasets.load_iris()

    # 将数据集拆分为训练集和测试集 
    X_train, X_test, y_train, y_test = train_test_split(
    diabetes.data, diabetes.target, test_size=0.30, random_state=0)
    return X_train, X_test, y_train, y_test

# 使用LogisticRegression考察线性回归的预测能力
def test_LogisticRegression_multiomaial(X_train, X_test, y_train, y_test):
    # 选择模型
    cls = LogisticRegression(multi_class='multinomial',solver='lbfgs')

    # 把数据交给模型训练
    cls.fit(X_train, y_train)

    print("Coefficients:%s, intercept %s"%(cls.coef_,cls.intercept_))
    print("Residual sum of squares: %.2f"% np.mean((cls.predict(X_test) - y_test) ** 2))
    print('Score: %.2f' % cls.score(X_test, y_test))

if __name__=='__main__':
    X_train,X_test,y_train,y_test=load_data() # 产生用于回归问题的数据集
    test_LogisticRegression_multiomaial(X_train,X_test,y_train,y_test) # 调用 test_LinearRegression

Coefficients:[[-0.39772352 0.83347392 -2.28853669 -0.98142875]
[ 0.54455173 -0.29022825 -0.23370111 -0.65566222]
[-0.14682821 -0.54324567 2.5222378 1.63709097]], intercept [ 8.99974988 1.54361012 -10.54336001]
Residual sum of squares: 0.02
Score: 0.98

(3)考虑正则化系数

"""
功能:逻辑回归
说明:
作者:唐天泽
博客:http://blog.csdn.net/u010837794/article/details/
日期:2017-08-14
"""

"""
导入项目所需的包
"""
import numpy as np
import matplotlib.pyplot as plt

# 使用交叉验证的方法,把数据集分为训练集合测试集
from sklearn.model_selection import train_test_split

from sklearn import datasets
from sklearn.linear_model import LogisticRegression

# 加载iris数据集
def load_data():
    diabetes = datasets.load_iris()

    # 将数据集拆分为训练集和测试集 
    X_train, X_test, y_train, y_test = train_test_split(
    diabetes.data, diabetes.target, test_size=0.30, random_state=0)
    return X_train, X_test, y_train, y_test

# 使用LogisticRegression考察线性回归的预测能力
def test_LogisticRegression_C(X_train, X_test, y_train, y_test):
    Cs=np.logspace(-2,4,num=100)
    scores=[]
    for C in Cs:
        # 选择模型
        cls = LogisticRegression(C=C)

        # 把数据交给模型训练
        cls.fit(X_train, y_train)

        scores.append(cls.score(X_test, y_test))

     ## 绘图
    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    ax.plot(Cs,scores)
    ax.set_xlabel(r"C")
    ax.set_ylabel(r"score")
    ax.set_xscale('log')
    ax.set_title("LogisticRegression")
    plt.show()

if __name__=='__main__':
    X_train,X_test,y_train,y_test=load_data() # 产生用于回归问题的数据集
    test_LogisticRegression_C(X_train,X_test,y_train,y_test) # 调用 test_LinearRegression
image

9.总结

10.参考资料

[1] ng CS229
[2] 李航 《统计学习方法》
[3] 华校专《Python大战机器学习》

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容