2018-02-28
概率统计一——概率分布
• 分类:
ml
• 标签:
ml
其实很多机器学习模型本身都是对数据分布有一定的假设的,在这个假设前提之下去进行理论研究有助于我们关注主要矛盾,忽律次要矛盾。但是在工程当中,很多时候我们对数据的分布其实是不了解的,贸然对数据进行假设容易造成模型无法无法拟合真实的分布。
关于概率的几个概念
举个例子,已知车祸有一定概率会导致堵车,此处车祸是因,堵车是果。
$P(堵车)$为先验概率——(出门前根据有种要堵车的感觉,这也是先验的意思)
$P(堵车|车祸)$是后验概率——(发生车祸了,这下估计要堵车)
为了很好的说明这个问题,在这里举一个例子:
玩英雄联盟占到中国总人口的60%,不玩英雄联盟的人数占到40%:
为了便于数学叙述,这里我们用变量X来表示取值情况,根据概率的定义以及加法原则,我们可以写出如下表达式:
P(X=玩lol)=0.6;P(X=不玩lol)=0.4,这个概率是统计得到的,即X的概率分布已知,我们称其为**先验概率(prior probability)**;
另外玩lol中80%是男性,20%是小姐姐,不玩lol中20%是男性,80%是小姐姐,这里我用离散变量Y表示性别取值,同时写出相应的条件概率分布:
P(Y=男性|X=玩lol)=0.8,P(Y=小姐姐|X=玩lol)=0.2
P(Y=男性|X=不玩lol)=0.2,P(Y=小姐姐|X=不玩lol)=0.8
那么我想问在已知玩家为男性的情况下,他是lol玩家的概率是多少:
依据贝叶斯准则可得:
P(X=玩lol|Y=男性)=P(Y=男性|X=玩lol)*P(X=玩lol)/
[ P(Y=男性|X=玩lol)*P(X=玩lol)+P(Y=男性|X=不玩lol)*P(X=不玩lol)]
最后算出的P(X=玩lol|Y=男性)称之为X的后验概率,即它获得是在观察到事件Y发生后得到的
先验概率——执因求果
事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如$P(x)$,$P(y)$。
后验概率——知果求因
事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。
条件概率
一个事件发生后另一个事件发生的概率。一般的形式为$P(x|y)$表示$y$发生的条件下x发生的概率。
极大似然概率——知果求最可能的原因
常用概率分布
http://www.csuldw.com/2016/08/19/2016-08-19-probability-distributions/
参考
dzzxjl