十一城

跬步千里,小流江海。

Home Linux ML Python Java Thoughts KmKg BookCan Links About

2018-02-28
概率统计一——概率分布

• 分类: ml • 标签:

其实很多机器学习模型本身都是对数据分布有一定的假设的,在这个假设前提之下去进行理论研究有助于我们关注主要矛盾,忽律次要矛盾。但是在工程当中,很多时候我们对数据的分布其实是不了解的,贸然对数据进行假设容易造成模型无法无法拟合真实的分布。

关于概率的几个概念

举个例子,已知车祸有一定概率会导致堵车,此处车祸是因,堵车是果。

$P(堵车)$为先验概率——(出门前根据有种要堵车的感觉,这也是先验的意思)

$P(堵车|车祸)$是后验概率——(发生车祸了,这下估计要堵车)


为了很好的说明这个问题,在这里举一个例子:

玩英雄联盟占到中国总人口的60%,不玩英雄联盟的人数占到40%:

为了便于数学叙述,这里我们用变量X来表示取值情况,根据概率的定义以及加法原则,我们可以写出如下表达式:

P(X=玩lol)=0.6;P(X=不玩lol)=0.4,这个概率是统计得到的,即X的概率分布已知,我们称其为**先验概率(prior probability)**;

另外玩lol中80%是男性,20%是小姐姐,不玩lol中20%是男性,80%是小姐姐,这里我用离散变量Y表示性别取值,同时写出相应的条件概率分布:

P(Y=男性|X=玩lol)=0.8,P(Y=小姐姐|X=玩lol)=0.2

P(Y=男性|X=不玩lol)=0.2,P(Y=小姐姐|X=不玩lol)=0.8

那么我想问在已知玩家为男性的情况下,他是lol玩家的概率是多少:

依据贝叶斯准则可得:

P(X=玩lol|Y=男性)=P(Y=男性|X=玩lol)*P(X=玩lol)/

[ P(Y=男性|X=玩lol)*P(X=玩lol)+P(Y=男性|X=不玩lol)*P(X=不玩lol)]

最后算出的P(X=玩lol|Y=男性)称之为X的后验概率,即它获得是在观察到事件Y发生后得到的

先验概率——执因求果

事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如$P(x)$,$P(y)$。

后验概率——知果求因

事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。

条件概率

一个事件发生后另一个事件发生的概率。一般的形式为$P(x|y)$表示$y$发生的条件下x发生的概率。

极大似然概率——知果求最可能的原因

常用概率分布

http://www.csuldw.com/2016/08/19/2016-08-19-probability-distributions/

参考

  1. https://zhuanlan.zhihu.com/p/26464206
  2. https://www.douban.com/note/479501378/

dzzxjl

Home Linux ML Python Java Thoughts KmKg BookCan Links About