常见的离散型和连续型随机变量的概率分布

发布时间:2024-11-25 15:23

不同品牌和型号的蓝牙耳机连接距离一般在10-30米之间。 #生活常识# #蓝牙耳机#

目录

1 基本概念

2 离散型随机变量的概率分布

2.1 二项分布

2.2 超几何分布 

2.2.1 概念

2.2.2 举例

2.3 泊松分布 

3 连续型随机变量的概率分布

3.1 均匀分布 

3.1.1 概念

3.2 正态分布

3.2.1 概念

3.3  指数分布 

3.3.1 概念

3.3.2 举例

4 参考文献

1 基本概念

在之前的博文中,已经明白了概率分布函数和概率密度函数。下面来讲解一下常见的离散型和连续型随机变量概率分布。

在此之前,介绍几个基本概念:

均值(期望值expected value):μ=E(x)=∑xp(x)" role="presentation">μ=E(x)=∑xp(x)方差(variance): σ2=E[(x−μ)2]=∑(x−μ)2p(x)" role="presentation">σ2=E[(x−μ)2]=∑(x−μ)2p(x)标准差(standard deviation):σ=σ2" role="presentation">σ=σ2

其中,可以证明E[(x−μ2)]=E(x2)−μ2" role="presentation">E[(x−μ2)]=E(x2)−μ2

2 离散型随机变量的概率分布

2.1 二项分布

如果进行n次不同的实验,每次试验完全相同并且只有两种可能的结果,这样的实验结果分布情况就是二项分布。最简单的比如投掷一枚硬币,不管进行多少次实验,实验结果都只有正面朝上或者反面朝上,这就是一个简单的二项分布。 

二项分布概率分布:

p(x)=Cnxpxqn−x (x=0,1,2,3···,n)" role="presentation">p(x)=Cnxpxqn−x (x=0,1,2,3···,n)

其中:n代表n次实验,x表示实验结果为T的次数,q是实验结果为T的概率,q=1-p,表示实验结果为F的概率。

二项分布的 
均值:μ=np" role="presentation">μ=np
方差:σ2=npq" role="presentation">σ2=npq
标准差:σ=npq" role="presentation">σ=npq
二项分布对于结果只有两种情况的随机事件有非常好的描述,属于日常生活中最常见、最简单的随机变量概率分布,在知道某种实验结果概率的情况下,能够很好推断实验次数后发生其中某一结果次数的概率。

2.2 超几何分布 

2.2.1 概念

超几何分布和二项分布比较相似,二项分布每次实验完全一样,而超几何分布前一次的实验结果会影响后面的实验结果。简单地讲,二项分布抽取之后放回元素,而超几何分布是无放回的抽取。 
超几何分布的概率分布,均值和方差

p(x)=CrxCN−rn−xCNn" role="presentation">p(x)=CrxCN−rn−xCNn

μ=nrN" role="presentation">μ=nrN

σ2=r(N−r)n(N−n)N2(N−1)" role="presentation">σ2=r(N−r)n(N−n)N2(N−1)

2.2.2 举例

在一个口袋中装有30个球,其中有10个红球,其余为白球,这些球除颜色外完全相同。游戏者一次从中摸出5个球。摸到至少4个红球就中一等奖,那么获一等奖的概率是多少?

解:由题意可见此问题归结为超几何分布模型。

其中N = 30. r = 10. n = 5.

P(一等奖)= P(X=4)+ P(X=5)

由公式

 p(X=x)=CrxCN−rn−xCNn" role="presentation">p(X=x)=CrxCN−rn−xCNn

,x=0,1,2,...得:

P(一等奖) = 106/3393

2.3 泊松分布 

2.3.1 概念

泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。

泊松分布的概率分布,均值和方差: 

p(x)=λxe−λx! (x=0,1,2,···)" role="presentation">p(x)=λxe−λx! (x=0,1,2,···)

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。

μ=λ" role="presentation">μ=λ

σ2=λ" role="presentation">σ2=λ

2.3.2 举例

采用0.05J/㎡紫外线照射大肠杆菌时,每个基因组平均产生3个嘧啶二体。实际上每个基因组二体的分布是服从泊松分布的,将取如下形式: 

……

3 连续型随机变量的概率分布

3.1 均匀分布 

3.1.1 概念

均匀概率分布(uniform probability distribution)是指连续随机变量所有可能出现值出现概率都相同。 
均匀分布 
均匀分布的概率分布,均值,方差和标准差: 

f(x)=1b−a(a≤x≤b)" role="presentation">f(x)=1b−a(a≤x≤b)

均值:μ=a+b2" role="presentation">μ=a+b2

方差:σ=(b−a)212" role="presentation">σ=(b−a)212
标准差:σ=b−a12" role="presentation">σ=b−a12

如何求解均值和标准差:

3.2 正态分布

3.2.1 概念

正态分布是统计学中常见的一种分布,表现为两边对称,是一种钟型的概率分布(bell curve),其概率密度图为:

æ­£æåå¸

概率密度函数为:

其中,μ" role="presentation">μ是正态随机变量的均值; σ" role="presentation">σ是标准差; π" role="presentation">π是圆周率,约等于3.1416··· ;e=2.71828⋅⋅⋅

特别的,当μ=0" role="presentation">μ=0且σ=1" role="presentation">σ=1的正态分布,被称为标准正态分布(standard distribution),此时有:

正态分布转化为标准正态分布: 
正态分布x,均值是μ,标准差是σ,z定义为z=x−μσ" role="presentation">z=x−μσ

正态分布来近似二项分布 :
当n足够大的时候,正态分布对于离散型二项分布能够很好地近似。 
二项分布

评价正态分布 :
如何来确定数据是否正态分布,主要有以下几种方法: 
1. 图形感受法:建立直方图或者枝干图,看图像的形状是否类似正态曲线,既土墩形或者钟形,并且两端对称。 
2. 计算区间x¯±s,x¯±2s,x¯±3s" role="presentation">x¯±s,x¯±2s,x¯±3s,看落在区间的百分比是否近似于68%,95%,100%。(切比雪夫法则和经验法则) 
3. 求IQR和标准差s,计算IQR/s,如若是正态分布,则IQR/s≈1.3.
4. 建立正态概率图,如果近似正态分布,点会落在一条直线上。 

æ­£ææ¦çå¾

3.3  指数分布 

3.3.1 概念

指数分布是描述泊松分布中事件发生时间间隔的概率分布。除了用于泊松过程的分析,还有许多其他应用,如以下场景:

世界杯比赛中进球之间的时间间隔超市客户中心接到顾客来电之间的时间间隔流星雨发生的时间间隔机器发生故障之间的时间间隔

癌症病人从确诊到死亡的时间间隔

指数分布有如下的适用条件: 
1. x是两个事件发生之间的时间间隔,并且x>0; 
2. 事件之间是相互独立的; 
3. 事件发生的频率是稳定的; 
4. 两个事件不能发生在同一瞬间。

这几个条件实质上也是使用泊松分布的前提条件。如果满足上述条件,则x是一个指数随机变量,x的分布是一个指数分布。如果不满足上述条件,那么需要使用Weibull分布或者gamma分布。

指数分布只有一个参数,“λ”,λ是事件发生的频率,在不同的应用场景中可能有不同名称:

事件频率到达频率死亡率故障率转变率…………

λ是单元时间内事件发生的次数,这里需要注意的是,单元时间可以是秒,分,小时等不同的单位,同时λ根据单元时间度量的不同,其数值也不一样。如单元时间为1小时,λ为6,则单元时间1分钟,λ为6/60=0.1

指数分布的概率密度函数(probability density func,PDF)由λ和x(时间)构成:

f(x)=λe−λx" role="presentation">f(x)=λe−λx

均值:μ=1λ" role="presentation">μ=1λ

方差:σ2=1λ" role="presentation">σ2=1λ

3.3.2 举例

一个设备出现多次故障的时间间隔记录如下:

23, 261, 87, 7, 120, 14, 62, 47, 225, 71, 246, 21, 42, 20, 5, 12, 120, 11, 3, 14, 71, 11, 14, 11, 16, 90, 1, 16, 52, 95

根据上面数据,我们可以计算得到该设备发生故障的平均时间是59.6小时,即单位小时时间内发生故障事件的次数为λ=1/59.6=0.0168。 
那么该设备在3天(72小时)内出现故障的概率是多大呢?即求P(x<72),这就需要计算指数分布的累积分布函数: 

P(X&lt;72)=&#x222B;072&#x03BB;e&#x2212;&#x03BB;xdx=1&#x2212;e&#x2212;&#x03BB;(72)=1&#x2212;e&#x2212;0.0168&#x2217;72=0.7017" role="presentation">P(X<72)=∫072λe−λxdx=1−e−λ(72)=1−e−0.0168∗72=0.7017
也即该设备3天内出现故障的概率大于70%。

4 参考文献

【1】统计学:离散型和连续型随机变量的概率分布

【2】指数分布

网址:常见的离散型和连续型随机变量的概率分布 https://www.yuejiaxmz.com/news/view/265569

相关内容

常见的离散型和连续型随机变量的概率分布
设随机变量X和Y的联合概率分布为YX
设随机变量X的分布列为P=..,(2)求P,. 题目和参考答案——青夏教育精英家教网——
机器学习: LightGBM模型(优化版)——高效且强大的树形模型
概念=量产?国产车高颜值的秘诀之一
条件随机场CRF
深度学习语音识别方法概述与分析
强化学习之确定性策略网络和随机策略网络
杭州市社区养老服务设施的空间布局的研究.doc
基于学习的运筹优化算法进展与发展趋势(一):优化观点、常见优化方法和概念澄清

随便看看