五、常见概率分布
5.1 均匀分布
- 离散随机变量的均匀分布:假设 ![五、常见概率分布 - 图1]为:
2. 连续随机变量的均匀分布: 假设 ![五、常见概率分布 - 图5]为:
.
5.2 伯努利分布
- 伯努利分布:参数为 ![五、常见概率分布 - 图7] 。
-
概率分布函数为:
-
期望:
categorical
分布:它是二项分布的推广,也称作multinoulli
分布。假设随机变量 ![五、常见概率分布 - 图12],其概率分布函数为:
其中 ![五、常见概率分布 - 图14] 。
5.3 二项分布
- 假设试验只有两种结果:成功的概率为 ![五、常见概率分布 - 图17] 次的概率。
概率质量函数:
- 期望:
5.4 高斯分布
- 正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择:
建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明,多个独立随机变量的和近似正态分布。
在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。
5.4.1 一维正态分布 - 正态分布的概率密度函数为 :
其中 ![五、常见概率分布 - 图25] 为常数。
-
若随机变量
-
特别的,当
-
为了计算方便,有时也记作:
- 正态分布的概率密度函数性质:
-
曲线关于
-
曲线在
-
曲线在
-
参数
3. 若 ![五、常见概率分布 - 图41] 则:
-
-
期望:
- 有限个相互独立的正态随机变量的线性组合仍然服从正态分布:若随机变量 ![五、常见概率分布 - 图45] 。
5.4.2 多维正态分布 - 二维正态随机变量 ![五、常见概率分布 - 图49] 的概率密度为:
根据定义,可以计算出:
2. 引入矩阵:
![五、常见概率分布 - 图53],其逆矩阵为:
于是 ![五、常见概率分布 - 图57] 表示矩阵的转置:
其中:
-
均值
-
标准差
-
-
此时的联合分布概率函数形状如下图所示,曲面在 ![五、常见概率分布 - 图64] 平面的截面是个圆形:
此时的联合分布概率函数形状如下图所示,曲面在 ![五、常见概率分布 - 图67] 方向压缩 :
此时表示随机变量之间完全相关。此时的联合分布概率函数形状为:曲面在 ![五、常见概率分布 - 图71] 方向压缩成一条直线 。
由于 ![五、常见概率分布 - 图74]:
3. 多维正态随机变量 ![五、常见概率分布 - 图77] ,引入列矩阵:
![五、常见概率分布 - 图79] 的协方差矩阵。则:
记做 :![五、常见概率分布 - 图82] 。
4. ![五、常见概率分布 - 图83] 维正态变量具有下列四条性质:
-
-
-
若
这一性质称为正态变量的线性变换不变性。 -
设
5.5 拉普拉斯分布
- 拉普拉斯分布:
-
概率密度函数:
-
期望:
5.6 泊松分布
- 假设已知事件在单位时间(或者单位面积)内发生的平均 次数为
-
概率质量函数:
-
期望:
2. 用均匀分布模拟泊松分布:
def make_poisson(lmd,tm):
'''
用均匀分布模拟泊松分布。 lmd为 lambda 参数; tm 为时间
'''
t=np.random.uniform(0,tm,size=lmd*tm) 获取 lmd*tm 个事件发生的时刻
count,tm_edges=np.histogram(t,bins=tm,range=(0,tm))获取每个单位时间内,事件发生的次数
max_k= lmd *2 要统计的最大次数
dist,count_edges=np.histogram(count,bins=max_k,range=(0,max_k),density=True)
x=count_edges[:-1]
return x,dist,stats.poisson.pmf(x,lmd)
该函数:
- 首先随机性给出了
lmd*tm
个事件发生的时间(时间位于区间[0,tm]
)内。
然后统计每个单位时间区间内,事件发生的次数。
然后统计这些次数出现的频率。
最后将这个频率与理论上的泊松分布的概率质量函数比较。
5.7 指数分布
- 若事件服从泊松分布,则该事件前后两次发生的时间间隔服从指数分布。由于时间间隔是个浮点数,因此指数分布是连续分布。
- 概率密度函数:(
- 期望:
2. 用均匀分布模拟指数分布:
def make_expon(lmd,tm):
'''
用均匀分布模拟指数分布。 lmd为 lambda 参数; tm 为时间
'''
t=np.random.uniform(0,tm,size=lmd*tm) 获取 lmd*tm 个事件发生的时刻
sorted_t=np.sort(t) 时刻升序排列
delt_t=sorted_t[1:]-sorted_t[:-1] 间隔序列
dist,edges=np.histogram(delt_t,bins="auto",density=True)
x=edges[:-1]
return x,dist,stats.expon.pdf(x,loc=0,scale=1/lmd) scale 为 1/lambda
5.8 伽马分布
- 若事件服从泊松分布,则事件第 ![五、常见概率分布 - 图119] 次发生的时间间隔为伽玛分布。由于时间间隔是个浮点数,因此指数分布是连续分布。
-
概率密度函数:
-
期望:
- 上面的定义中 ![五、常见概率分布 - 图125] 服从伽马分布,则其概率密度函数为:
记做 ![五、常见概率分布 - 图128] 称作尺度参数。
-
期望
-
当
-
当
3. 性质:
-
当
-
当
-
当
- 伽马分布的可加性:设随机变量 ![五、常见概率分布 - 图142],则:
5. 用均匀分布模拟伽玛分布:
def make_gamma(lmd,tm,k):
'''
用均匀分布模拟伽玛分布。 lmd为 lambda 参数; tm 为时间;k 为 k 参数
'''
t=np.random.uniform(0,tm,size=lmd*tm) 获取 lmd*tm 个事件发生的时刻
sorted_t=np.sort(t) 时刻升序排列
delt_t=sorted_t[k:]-sorted_t[:-k] 间隔序列
dist,edges=np.histogram(delt_t,bins="auto",density=True)
x=edges[:-1]
return x,dist,stats.gamma.pdf(x,loc=0,scale=1/lmd,a=k) scale 为 1/lambda,a 为 k
5.9 贝塔分布
- 贝塔分布是定义在 ![五、常见概率分布 - 图145] 之间的连续概率分布。
如果随机变量 ![五、常见概率分布 - 图146] 服从贝塔分布,则其概率密度函数为:
记做 ![五、常见概率分布 - 图148] 。
-
众数为:
-
期望为:
5.10 狄拉克分布
- 狄拉克分布:假设所有的概率都集中在一点 ![五、常见概率分布 - 图153] 。
其中 ![五、常见概率分布 - 图155] 为狄拉克函数,其性质为:
2. 狄拉克分布的一个典型用途就是定义连续型随机变量的经验分布函数。假设数据集中有样本 ![五、常见概率分布 - 图157],则定义经验分布函数:
它就是对每个样本赋予了一个概率质量 ![五、常见概率分布 - 图159]。
3. 对于离散型随机变量的经验分布,则经验分布函数就是multinoulli
分布,它简单地等于训练集中的经验频率。
4. 经验分布的两个作用:
通过查看训练集样本的经验分布,从而指定该训练集的样本采样的分布(保证采样之后的分布不失真)。
经验分布就是使得训练数据的可能性最大化的概率密度函数。
5.11 多项式分布与狄里克雷分布
- 多项式分布的质量密度函数:
它是 ![五、常见概率分布 - 图161] 的多项式展开的形式。
2. 狄利克雷分布的概率密度函数:
3. 可以看到,多项式分布与狄里克雷分布的概率密度函数非常相似,区别仅仅在于前面的归一化项:
多项式分布是针对离散型随机变量,通过求和获取概率。
狄里克雷分布时针对连续型随机变量,通过求积分来获取概率。
5.12 混合概率分布
- 混合概率分布:它组合了其他几个分量的分布来组成。
在每次生成样本中,首先通过multinoulli
分布来决定选用哪个分量,然后由该分量的分布函数来生成样本。
其概率分布函数为:
其中 ![五、常见概率分布 - 图164] 的取值范围就是各分量的编号。
2. 前面介绍的连续型随机变量的经验分布函数就是一个混合概率分布的例子,此时 ![五、常见概率分布 - 图166] 。
3. 混合概率分布可以通过简单的概率分布创建更复杂的概率分布。一个常见的例子是混合高斯模型,其中 ![五、常见概率分布 - 图167] 。
- 有些混合高斯模型有更强的约束,如
混合高斯模型是一个通用的概率密度函数逼近工具。任何平滑的概率密度函数都可以通过足够多分量的混合高斯模型来逼近。
文章列表
- AI算法工程师手册-一、基本知识
- AI算法工程师手册-一、数值稳定性
- AI算法工程师手册-一、概率与分布
- AI算法工程师手册-一、蒙特卡洛方法
- AI算法工程师手册-七、信息论
- AI算法工程师手册-三、MCMC 采样
- AI算法工程师手册-三、二阶导数与海森矩阵
- AI算法工程师手册-三、大数定律及中心极限定理
- AI算法工程师手册-三、矩阵运算
- AI算法工程师手册-二、向量操作
- AI算法工程师手册-二、期望和方差
- AI算法工程师手册-二、梯度下降法
- AI算法工程师手册-二、马尔可夫链
- AI算法工程师手册-五、常见概率分布
- AI算法工程师手册-五、拟牛顿法
- AI算法工程师手册-八、其它
- AI算法工程师手册-六、 约束优化
- AI算法工程师手册-六、先验分布与后验分布
- AI算法工程师手册-四、牛顿法
- AI算法工程师手册-四、特殊函数