泊松分布 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
atuocn
V2EX    分享发现

泊松分布

  •  
  •   atuocn 2020-01-20 14:54:23 +08:00 2635 次点击
    这是一个创建于 2127 天前的主题,其中的信息可能已经有所发展或是发生改变。

    伊始

    处理一个关于正态分布和σ的问题,自己数学经过连续多年衰减,残值几乎为零。概率方面只大约记得正态分布是个倒钟形曲线 -_-!!! 百度的时候,看到一个叫泊松分布,图形看起来象是歪的正态分布。一时好奇,于是用百度百科级的研究水平,研究起泊松分布。

    开始看百度百科的泊松分布条目,感觉懂了又感觉没懂,疑惑很多,云里雾里;然后又看了百科的泊松定理,似乎明白了一些,感觉还是抓不住;最后沿泊松定理,往上顺爬到二项分布,大概算是清楚了。虽然没啥乱用,浪费脑力,还是记个笔记留个痕。

    二项分布

    • 每次事件独立。
    • 事件发生时,结果要么 A,要么 B, 发生 A 的概率为 p。
    • 每次实验,p 不变。

    n 次实验(符合上述条件的实验称为伯努利实验)中 A 发生 k 次的概率,为二项分布。

    二项分布公式,设发生次数为ξ,当ξ=k 时的概率[1]

    P(ξ=k) = C(n,k) * power(p, k) * power((1-p), (n-k)) 

    其中,C(n,k)为组合数。power 为指数函数。

    注意:概率 p 为事件结果为 A 的概率,是事件本身的概率特性,和实验次数无关。二项分布是求事件 A 发生 k 次的概率。 二项分布的期望为 np,方差为 npq,其中 q=1-p。

    泊松分布

    1. 在一个小区间Δt 内,发生一次事件的机率与Δt 成正比:λΔt。
    2. 在小区间Δt 内发生两次以上的机率可以忽略。
    3. 在不重叠的时间段落里,事件各自发生的次数是独立的。

    在 T 时间内,发生 k 次事件的几率为泊松分布。

    泊松分布公式,在 T 时段,发生 k 次数的概率[2]

    P(k, T) = (power(λT, k) / k!) * exp(-λT) 

    其中 exp 为自然常数 e 的指数函数。

    泊松分布公式的期望值和方差均为λT。λT 通常记为 m。表示在区间 T 中,平均的发生次数。

    • 平均发生次数。平均发生次数 m,并不是发生 m 次数的概率。多次统计 T 区间内,有些时候次数多,有些时候次数少,平均下来次数是 m。
    • 泊松分布中平均发生次数和区段 T 成正比。比如每小时的平均电话呼叫数为 m, 则每分钟的平均电话呼叫数为 m/60。
    • 可以理解为平均发生次数 m 的速率或者密度为λ。泊松分布中λ恒定。
    • λ与时间区间无关,而平均次数与时间区间长度有关,λ有点象“加速度”,除以了 2 次时间长度。

    泊松分布公式中,可用在区间 T 中平均的发生次数 m 作为参数。 另一种说法中,T 是单位时间,T=1。平均发生次数和发生 k 次的概率都在 T=1 的单位时间内,这时公式中参数是λ。 区间内的平均发生次数 m,或单位时间平均发生次数λ,公式形式更简单。但是个人感觉理解公式上,λT 更好。

    泊松分布与二项分布

    • 泊松分布,条件⑴,⑵可知,在很小的区段Δt 内,P(1, Δt) = λΔt,且 P(k, Δt) = 0, k 2。 即,事件只有 2 种结果,发生或不发生。结果为“发生”的概率为λΔt,结果为“不发生”的概率为 1 - λΔt。
    • 把区段 T 分为 n 段,按泊松分布条件,可视为 n 次伯努利实验。此时发生 k 次的概率,为二项分布。
    • 按泊松分布条件⑴,区段Δt 内事件发生的概率,与Δt 成正比,即事件发生的概率密度恒定为λ
    • 继续细分Δt,事件“发生”的概率密度λ不变,而事件“发生”的概率 p 则变小,n 变大。每一次细分,指定的Δt 下,仍符合伯努利实验 。
    • 当Δt → 0,则 p → 0,n → ∞ 。二项分布的极限为泊松分布。
    • 由以上推导可以,若实验次数 n 很大,而事件“发生”的概率 p 很小,二项分布近似于泊松分布。 通常当 n20, p0.05 时[3],可以用 np = λT = m 代入泊松分布,进行近似计算,更方便。

    泊松分布,正态分布,二项分布

    • 二项分布,在 0<p<1,n 很大的情况下,逼近正态分布。(p 不变, n 增大) [4]
    • 二项分布,在 p 很小,n 较大的情况下,逼近泊松分布。(参见泊松分布推导过程,np 不变约束下一系列不同的二项分布逼近)。
    • 显然泊松分布于正态分布有某种近似。有定理表明λ → ∞ 时泊松分布的极限是正态分布。
    • 当 p 很小,n 较大。用泊松分布可以近似计算二项分布。np = λT = m
    • 当 p 不接近于 0,也不接近于 1 ( 0.1p0.9 ),n 充分大。用正态分布可以近似计算二项分布。μ=np, σ^2=np(1-p) [4]

    补充复习几个概念

    • 期望值和均值。期望值是概率论上的概念,在已知概率下预测的平均值。均值是统计学上的概念,事后统计数据计算的平均值。 可以说期望值是均值在样本无穷大下的极限。概率则是统计的频率在样本无穷大下的极限。
    • 概率质量函数,是描述离散型随机变量的概率分布。是某个随机值出现的概率。
    • 概率密度函数,是描述连续型随机变量的概率分布。连续的随机变量区间,随机变量 X 的取值有无穷个,所以 X 等于具体的某个值 k, 出现的概率无限趋近于零。 虽然 P(X=k)=0,但并非不可能事件。连续型随机变量落在某个区间具有一定的概率,所以用概率密度函数描述。概率则是概率密度函数的积分。
    第 1 条附言    2020-01-21 11:46:39 +08:00
    “ λ有点象“加速度”,除以了 2 次时间长度。”这句话有误,删除。本意是想说为求单位时间平均次数,可能需做两次除法。一次除法求平均次数,一次除法求单位时间内平均次数。

    现实中单位时间内发生的平均次数通常是观察统计后估计。一种是观察多个样本。比如呼叫中心每分钟电话次数。可以观察 N 台电话机,T 时段电话数。每台电话呼叫次数大致在某个数字左右。用所有电话次数除以 N 得到每台电话 T 时段平均呼叫次数,再除以时段 T 得到单位时间平均呼叫次数。如果没有办法观察多个样本,比如某路口每月交通事故数,那就拉长观察时段,观察 N 个时长为 T 的时段的交通事故数。总次数除 N 再除以 T,得到单位时间内的平均交通事故数。
    2 条回复    2020-01-21 17:31:31 +08:00
    lingll
        1
    lingll  
       2020-01-20 15:24:46 +08:00
    点个赞
    FurN1
        2
    FurN1  
       2020-01-21 17:31:31 +08:00
    点个赞
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2510 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 07:03 PVG 15:03 LAX 23:03 JFK 02:03
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86