概率与统计——条件概率、全概率、贝叶斯、似然函数、极大似然估计

条件概率

事物A独立发生的概率为P(A),事物B独立发生的概率为P(B),那么有:

P(A|B)表示事物B发生之后事物A发生的概率;

P(B|A)表示事物A发生之后事物B发生的概率;

全概率

我们可以将公式写成全量的形式:

B_k(k=1,2,3...,n)表示全量相互排斥且性质关联的事物,即:

B_i\cap B_j=\oslash (空集)B_1\cup B_2 \cup .....B_i = \Omega (全集的子集)

那么可以得到

P(A)=\sum_j^iP(B_j)P(A|B_j),这就是全概率公式。

全概率公式的意义在于:无法知道一个事物独立发生的概率,但是我们可以将其在各种条件下发生的概率进行累加获得。

全概率的例子

例1,已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。一个人检测为阳性的概率是多少。

设P(A)=0.001表示发病率,则P(\bar{A} )=0.999表示不发病率。P(B)表示检测为阳性的概率。所以:

P(B)=P(A)P(B|A) + P(\bar{A})P(B|\bar{A}),且P(B|A)=0.99,P(B|\bar{A})=0.05,所以

P(B)=0.001×0.99 + 0.999×0.05=0.05094


例2,袋子中50个球,20个黄球,30个白球。2个人一次从袋中各获取一个球,且不放回,求第二个人取得黄球的概率。

P(A)=\frac{2}{5}表示第一个人取得黄球的概率,则P(\bar{A})=\frac{3}{5}。

B表示第二个人取得黄球的事件。有:

P(B)=P(A)P(B|A)+P(\bar{A})P(B|\bar{A})=\frac{2}{5}×\frac{19}{49}+\frac{3}{5}×\frac{20}{49}=\frac{2}{5}

从另外一个角度说,无论前面的人抽了多少次,后面的人抽签总体概率是不变的。


例3,5张卡片上分别标记了1,2,3,4,5,每次取2张,连续取2次,取出后不放回。求第二次取出的卡片,比第一次取出的卡片大的概率。

A表示第二张牌大的事件。B_i,i\in[1,5]表示第一张抽到1到5的事件。

第一张抽到任何一张牌概率都是一样的,所以P(B_i)=\frac{1}{5}。

第一张牌抽到1时,第二张牌大的概率为P(A|B_1)=1。

第一张牌抽到2时,第二张牌大的概率为P(A|B_2)=\frac{3}{4}。

以此类推P(A|B_3)=\frac{2}{4},P(A|B_4)=\frac{1}{4},P(A|B_5)=0。所以:

P(A)=\sum_{i=1}^{5}P(B_i)P(A|B_i)=\frac{1}{5}×1+\frac{1}{5}×\frac{3}{4}+\frac{1}{5}×\frac{2}{4}+\frac{1}{5}×\frac{1}{4}+\frac{1}{5}×0=\frac{1}{2}


例4,甲袋有5只白球、7个红球,乙袋有4只白球、2只红球。任意取一个袋子,求从袋子取得白球的概率。

设A:获取的白球的事件,B:获得甲袋子的事件、\bar{B}:获取乙袋子。那么:

P(A)=P(B)P(A|B)+P(\bar{B})P(A|\bar{B})

P(B)=P(\bar{B})=\frac{1}{2},P(A|B)=\frac{5}{12},P(A|\bar{B})=\frac{4}{6},所以:

P(B)=\frac{1}{2}×\frac{5}{12}+\frac{1}{2}×\frac{4}{6}=\frac{13}{24}

*贝叶斯公式

P(A|B)=P(A)×\frac{P(B|A)}{P(B)}

贝叶斯公式的理解

可以理解他是全概率公式的反向应用,他是求某个条件出现时某个事件发生的概率。定义如下:

P(A)表示前置概率,表示当B事件未发生时A事件发生的概率。

P(A|B)为后置概率,表示B事件发生之后A事件发生的概率。

贝叶斯公式可以看做是事件B发生后对前置概率的修正,\frac{P(B|A)}{P(B)}是修正因子。

沿用前面医学的例子:

例1,已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。一个人检测为阳性时候,他确切患病的几率是多少。

设P(A)=0.001表示发病率,则P(\bar{A} )=0.999表示不发病率。P(B|A)=0.99,P(B|\bar{A})=0.05。所以:P(A|B)=P(A)×\frac{P(B|A)}{P(B)},用全概率公式:

P(A|B)=P(A)×\frac{P(B|A)}{P(A)P(B|A)+P(\bar{A})P(B|\bar{A})}P(A|B)=0.001×\frac{0.99}{0.001×0.99+0.999*0.05}\approx 0.01943=1.94\%

从结论看,这个试剂挺不可靠的。

将贝叶斯公式的底部展开为全概率公式:

P(A_k|B)=P(A_k)×\frac{P(B|A_k)}{\sum_{j=1}^nP(A_j)P(B|A_j)},j\in(0,n),A_j表示相互独立的事件。

使用全概率公式展开之后有个很直观的发现:当我们考察某一个事件的条件概率时——事件B发生之后A_k发生的概率,需要将整个样本空间中其他概率事件也加入到其中来。

似然函数

似然函数个人理解是一种更加“公式化”的条件概率表达式,因为他书写的形式和条件概率相比并没有太大区别——P(x|\theta ),只是解读方式不同。这里的x表示样本特征数据,\theta 表示模型参数。

如果\theta 已知并且固定,那么表示这个是一个概率计算模型,表示:不同的样本x在固定的模型参数\theta的概率值。

如果x已经并且固定,表示这是一个似然计算模型(统计模型),表示不同的样本用于求解模型参数\theta。

极大似然估计

按照前面似然函数P(x|\theta)的介绍,似然函数可以看做x是已知的,\theta是未知的,极大似然估计就是在已知x的情况下求取\theta

在现实的生产生活中也常?;嵊龅秸庋奈侍狻N颐且约坝辛?b>样本以及对应的标签(结论),如何根据这些样本来计算(推算)条件\theta 是一件很困难的事情。而极大似然估计就是一个根据样本值x和结论数据P(x|\theta)计算条件参数\theta 的过程。

总的来说,极大似然估计是一种参数估计算法。使用极大似然估计有一个很重要的先决条件——每一组样本都是独立的,并且有充分的训练样本

先看看样本独立的判断公式:P(A,B)=P(A)×P(B),即2个事物同时发生的概率等于事物独立发生概率的乘积。

极大似然评估的公式及像这个公式。

设有一组样本D=\{x_1,x_2,x_3...x_n\},所有样本的联合概率密度P(D|\theta)称为相对于样本\{x_1,x_2,x_3...x_n\}的似然函数。那么由独立判定公式推断出所有样本的概率为:

? ??l(\theta)=P(D|\theta)=P(x_i|\theta)=\prod_{i=1}^n P(x_i|\theta)。

\hat{\theta}是使得l(\theta)取得最大值的\theta 值,那么\hat{\theta} \theta 的极大似然估计量??梢允褂孟旅娴墓奖硎?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Chat%7B%5Ctheta%7D%20" alt="\hat{\theta} " mathimg="1">与D的关系:

\hat{\theta}=d(D)=D\{x_1,x_2,x_3...x_n\},P(x|\hat{\theta})称为极大似然评估值。

实际计算时,计算连乘比较麻烦,我们可以引入对数将其转换为一个求和的过程:

L(\theta)=lnl(\theta)=\sum_i^nlnP(x_i|\theta),因为lnxy=lnx+lny。L(\theta)也称为对数似然函数。

如果L(\theta)连续可微,那么可以使用导数为0求函数的凸点。即:

\frac{d(L(\theta))}{d\theta} = 0。

将条件因子扩展为M个,即P(x_i,\theta_j),i\in(0,n],j\in(0,m],则似然函数(对数似然函数变成):

L(\theta_j)=\sum_{i=1}^n\ln P(x_i|\theta_j)

此时每一个\theta_j的求导变成一个求偏导数的过程:

\frac{?L(\theta_j)}{?\theta_k} = \frac{?\sum_{i=1}^n\ln P(x_i|\theta_j)}{?\theta_k},每一个\theta_j都要对L(\theta_j)求导。

最大似然评估的案例

最大似然评估计算

最大似然评估(也称为极大似然评估)的用处是什么?首先可以将每个字眼拆解开来看。最大就是要找最大值,似然说明并不精确似乎就是这个值,评估指的是这是一个过程。

现实生活中的例子:2对夫妇(A,\hat{A}) (B,\hat{B}) 和一个小孩C。从外观上看,小孩C长相比较接近夫妇(A,\hat{A}) ,有点像B,不像\hat{B} ,让你猜测C是谁的小孩。思维正常一点的人肯定会说C(A,\hat{A})的小孩,这本身就是一个自然而然的判断过程,用数学解释:

设P(A|C)>P(B|C),P(\hat{A}|C)>P(\hat{B}|C)。P(x|C)表示小孩更像谁,x\in[A,\hat{A},B,\hat{B}]。

使用似然评估,就可以断定小孩更像谁:

P(A|C)×P(\hat{A}|C) > P(B|C)×P(\hat{B}|C)。

参数&模型评估

最大似然估计更多的应用是在有一定样本数据的情况下用于模型评估,更准确的说是模型中的参数评估。因为似然评估来自于概率独立判决公式——P(A,B)=P(A)×P(B),所以要求用于评估的样本数据相互独立。

先说一个很直观的案例解释这个问题:

例1,从盒子里连续取球,已知取得红球的概率P\in[0.1,0.5],求当P取何值时最有可能连续三次拿到红球。

只管上来说,肯定是概率越高取得红球的几率越高,所以不做推断也知道P=0.5时拿到红球的几率更高。下面通过数学过程来说明这个问题。

设条件Y_i=1,表示取得红球,Y_i=0表示没取得红球,所以用最大似然评估来计算参数得:

l(\theta)=P(Y_1)×P(Y_2)×P(Y_3)=P^3,只管的看就知道取值0.5似然评估最大。

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容