AI算法工程师手册-五、常见概率分布

五、常见概率分布

5.1 均匀分布

  1. 离散随机变量的均匀分布:假设 ![五、常见概率分布 - 图1]为:

五、常见概率分布 - 图4
2. 连续随机变量的均匀分布: 假设 ![五、常见概率分布 - 图5]为:

五、常见概率分布 - 图6
.
5.2 伯努利分布

  1. 伯努利分布:参数为 ![五、常见概率分布 - 图7] 。
  • 概率分布函数为:五、常见概率分布 - 图9

  • 期望: 五、常见概率分布 - 图1

  1. categorical 分布:它是二项分布的推广,也称作multinoulli分布。假设随机变量 ![五、常见概率分布 - 图12],其概率分布函数为:

五、常见概率分布 - 图1
其中 ![五、常见概率分布 - 图14] 。
5.3 二项分布

  1. 假设试验只有两种结果:成功的概率为 ![五、常见概率分布 - 图17] 次的概率。
    概率质量函数:

五、常见概率分布 - 图2

  • 期望: 五、常见概率分布 - 图2
    5.4 高斯分布
  1. 正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择:
    建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明,多个独立随机变量的和近似正态分布。
    在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。
    5.4.1 一维正态分布
  2. 正态分布的概率密度函数为 :

五、常见概率分布 - 图2
其中 ![五、常见概率分布 - 图25] 为常数。

  • 若随机变量 五、常见概率分布 - 图2

  • 特别的,当 五、常见概率分布 - 图3

  • 为了计算方便,有时也记作:五、常见概率分布 - 图3

  1. 正态分布的概率密度函数性质:
  • 曲线关于 五、常见概率分布 - 图3

  • 曲线在 五、常见概率分布 - 图3

  • 曲线在 五、常见概率分布 - 图3

  • 参数 五、常见概率分布 - 图3

五、常见概率分布 - 图4
3. 若 ![五、常见概率分布 - 图41] 则:

  • 五、常见概率分布 - 图4

  • 期望:五、常见概率分布 - 图4

  1. 有限个相互独立的正态随机变量的线性组合仍然服从正态分布:若随机变量 ![五、常见概率分布 - 图45] 。
    5.4.2 多维正态分布
  2. 二维正态随机变量 ![五、常见概率分布 - 图49] 的概率密度为:

五、常见概率分布 - 图5
根据定义,可以计算出:

五、常见概率分布 - 图5
2. 引入矩阵:

五、常见概率分布 - 图5
![五、常见概率分布 - 图53],其逆矩阵为:

五、常见概率分布 - 图5
于是 ![五、常见概率分布 - 图57] 表示矩阵的转置:

五、常见概率分布 - 图5
其中:

  • 均值 五、常见概率分布 - 图6

  • 标准差 五、常见概率分布 - 图6

  • 五、常见概率分布 - 图6

  • 五、常见概率分布 - 图6
    此时的联合分布概率函数形状如下图所示,曲面在 ![五、常见概率分布 - 图64] 平面的截面是个圆形:

五、常见概率分布 - 图6

  • 五、常见概率分布 - 图6
    此时的联合分布概率函数形状如下图所示,曲面在 ![五、常见概率分布 - 图67] 方向压缩 :

五、常见概率分布 - 图6

  • 五、常见概率分布 - 图7
    此时表示随机变量之间完全相关。此时的联合分布概率函数形状为:曲面在 ![五、常见概率分布 - 图71] 方向压缩成一条直线 。
    由于 ![五、常见概率分布 - 图74]:

五、常见概率分布 - 图7
3. 多维正态随机变量 ![五、常见概率分布 - 图77] ,引入列矩阵:

五、常见概率分布 - 图7
![五、常见概率分布 - 图79] 的协方差矩阵。则:

五、常见概率分布 - 图8
记做 :![五、常见概率分布 - 图82] 。
4. ![五、常见概率分布 - 图83] 维正态变量具有下列四条性质:

  • 五、常见概率分布 - 图8

  • 五、常见概率分布 - 图8

  •  五、常见概率分布 - 图9
    这一性质称为正态变量的线性变换不变性。

  •  五、常见概率分布 - 图9
    5.5 拉普拉斯分布

  1. 拉普拉斯分布:
  • 概率密度函数:五、常见概率分布 - 图1

  • 期望: 五、常见概率分布 - 图1

五、常见概率分布 - 图1
5.6 泊松分布

  1. 假设已知事件在单位时间(或者单位面积)内发生的平均 次数为 五、常见概率分布 - 图1
  • 概率质量函数:五、常见概率分布 - 图1

  • 期望: 五、常见概率分布 - 图1

五、常见概率分布 - 图1
2. 用均匀分布模拟泊松分布:

       
        def make_poisson(lmd,tm):
         '''
         用均匀分布模拟泊松分布。 lmd为 lambda 参数; tm 为时间
         '''
         t=np.random.uniform(0,tm,size=lmd*tm)  获取 lmd*tm 个事件发生的时刻
         count,tm_edges=np.histogram(t,bins=tm,range=(0,tm))获取每个单位时间内,事件发生的次数
         max_k= lmd *2  要统计的最大次数
         dist,count_edges=np.histogram(count,bins=max_k,range=(0,max_k),density=True)
         x=count_edges[:-1]
         return x,dist,stats.poisson.pmf(x,lmd)

该函数:

  • 首先随机性给出了 lmd*tm个事件发生的时间(时间位于区间[0,tm])内。
    然后统计每个单位时间区间内,事件发生的次数。
    然后统计这些次数出现的频率。
    最后将这个频率与理论上的泊松分布的概率质量函数比较。
    5.7 指数分布
  1. 若事件服从泊松分布,则该事件前后两次发生的时间间隔服从指数分布。由于时间间隔是个浮点数,因此指数分布是连续分布。
  • 概率密度函数:( 五、常见概率分布 - 图1

五、常见概率分布 - 图1

  • 期望: 五、常见概率分布 - 图1

五、常见概率分布 - 图1
2. 用均匀分布模拟指数分布:

       
        def make_expon(lmd,tm):
         '''
         用均匀分布模拟指数分布。 lmd为 lambda 参数; tm 为时间 
         '''
         t=np.random.uniform(0,tm,size=lmd*tm)  获取 lmd*tm 个事件发生的时刻
         sorted_t=np.sort(t) 时刻升序排列
         delt_t=sorted_t[1:]-sorted_t[:-1] 间隔序列
         dist,edges=np.histogram(delt_t,bins="auto",density=True)
         x=edges[:-1]
         return x,dist,stats.expon.pdf(x,loc=0,scale=1/lmd) scale 为 1/lambda

5.8 伽马分布

  1. 若事件服从泊松分布,则事件第 ![五、常见概率分布 - 图119] 次发生的时间间隔为伽玛分布。由于时间间隔是个浮点数,因此指数分布是连续分布。
  • 概率密度函数:五、常见概率分布 - 图1

  • 期望: 五、常见概率分布 - 图1

  1. 上面的定义中 ![五、常见概率分布 - 图125] 服从伽马分布,则其概率密度函数为:

五、常见概率分布 - 图1
记做 ![五、常见概率分布 - 图128] 称作尺度参数。

  • 期望 五、常见概率分布 - 图1

  •  五、常见概率分布 - 图1

  •  五、常见概率分布 - 图1

五、常见概率分布 - 图1
3. 性质:

  •  五、常见概率分布 - 图1

  •  五、常见概率分布 - 图1

  •  五、常见概率分布 - 图1

  1. 伽马分布的可加性:设随机变量 ![五、常见概率分布 - 图142],则:

五、常见概率分布 - 图1
5. 用均匀分布模拟伽玛分布:

       
        def make_gamma(lmd,tm,k):
         '''
         用均匀分布模拟伽玛分布。 lmd为 lambda 参数; tm 为时间;k 为 k 参数
         '''
         t=np.random.uniform(0,tm,size=lmd*tm)  获取 lmd*tm 个事件发生的时刻
         sorted_t=np.sort(t) 时刻升序排列
         delt_t=sorted_t[k:]-sorted_t[:-k] 间隔序列
         dist,edges=np.histogram(delt_t,bins="auto",density=True)
         x=edges[:-1]
         return x,dist,stats.gamma.pdf(x,loc=0,scale=1/lmd,a=k) scale 为 1/lambda,a 为 k

5.9 贝塔分布

  1. 贝塔分布是定义在 ![五、常见概率分布 - 图145] 之间的连续概率分布。
    如果随机变量 ![五、常见概率分布 - 图146] 服从贝塔分布,则其概率密度函数为:

五、常见概率分布 - 图1
记做 ![五、常见概率分布 - 图148] 。

  • 众数为: 五、常见概率分布 - 图1

  • 期望为: 五、常见概率分布 - 图1

五、常见概率分布 - 图1
5.10 狄拉克分布

  1. 狄拉克分布:假设所有的概率都集中在一点 ![五、常见概率分布 - 图153] 。
    其中 ![五、常见概率分布 - 图155] 为狄拉克函数,其性质为:

五、常见概率分布 - 图1
2. 狄拉克分布的一个典型用途就是定义连续型随机变量的经验分布函数。假设数据集中有样本 ![五、常见概率分布 - 图157],则定义经验分布函数:

五、常见概率分布 - 图1
它就是对每个样本赋予了一个概率质量 ![五、常见概率分布 - 图159]。
3. 对于离散型随机变量的经验分布,则经验分布函数就是multinoulli分布,它简单地等于训练集中的经验频率。
4. 经验分布的两个作用:
通过查看训练集样本的经验分布,从而指定该训练集的样本采样的分布(保证采样之后的分布不失真)。
经验分布就是使得训练数据的可能性最大化的概率密度函数。
5.11 多项式分布与狄里克雷分布

  1. 多项式分布的质量密度函数:

五、常见概率分布 - 图1
它是 ![五、常见概率分布 - 图161] 的多项式展开的形式。
2. 狄利克雷分布的概率密度函数:

五、常见概率分布 - 图1
3. 可以看到,多项式分布与狄里克雷分布的概率密度函数非常相似,区别仅仅在于前面的归一化项:
多项式分布是针对离散型随机变量,通过求和获取概率。
狄里克雷分布时针对连续型随机变量,通过求积分来获取概率。
5.12 混合概率分布

  1. 混合概率分布:它组合了其他几个分量的分布来组成。
    在每次生成样本中,首先通过multinoulli分布来决定选用哪个分量,然后由该分量的分布函数来生成样本。
    其概率分布函数为:

五、常见概率分布 - 图1
其中 ![五、常见概率分布 - 图164] 的取值范围就是各分量的编号。
2. 前面介绍的连续型随机变量的经验分布函数就是一个混合概率分布的例子,此时 ![五、常见概率分布 - 图166] 。
3. 混合概率分布可以通过简单的概率分布创建更复杂的概率分布。一个常见的例子是混合高斯模型,其中 ![五、常见概率分布 - 图167] 。

  • 有些混合高斯模型有更强的约束,如 五、常见概率分布 - 图1
    混合高斯模型是一个通用的概率密度函数逼近工具。任何平滑的概率密度函数都可以通过足够多分量的混合高斯模型来逼近。

文章列表

更多推荐

更多
  • Pharo敏捷人工智能-第一部分:神经网络
    Apache CN

  • Pharo敏捷人工智能-第二部分:遗传算法
    Apache CN

  • Pharo敏捷人工智能-# 第三部分:神经进化 第三部分:神经进化
    Apache CN

  • Azure数据工程指南-二十四、数据治理的权限 创建 azure 预览帐户,探索 azure 预览,探索词汇表,浏览资产,以编程方式使用预览,摘要,管理凭证和访问,创建扫描, 许多组织需要建立数据治理流程、标准和方法,并且已经能够使用内部 SQL Server 工具(如 Master
    Apache CN

  • Azure数据工程指南-二十二、Synapse 分析工作区 创建 Synapse 分析工作区,使用 Spark 探索样本数据,用 SQL 查询数据,用 SQL 创建外部表,摘要, 微软 Azure 数据平台的众多新增功能已经围绕许多类似的产品及其在现代 Azure 数据平台中的用途产生了兴奋和困
    Apache CN

  • Azure数据工程指南-二十三、数据块中的机器学习 创建 MLflow 实验,安装 MLflow 库,创建笔记本,选择性测井,自动记录,摘要, 寻求利用机器学习(ML)和人工智能能力的组织和开发人员花费大量时间构建 ML 模型,并寻求一种方法来简化他们的机器学习开发生命周期,以跟踪实验,
    Apache CN

  • Azure数据工程指南-二十一、将 Apache Spark 的 GraphFrame API 用于图形分析 安装 JAR 库,加载新数据表,将数据加载到数据块笔记本中,用顶点和边构建一个图,查询图表,寻找有图案的图案,用 PageRank 发现重要性,探索入度和出度度量,摘要,进行广度优先搜索,查找连接的组件, 图形技术使用户能够以图形的形式
    Apache CN

  • Azure数据工程指南-20 二十、部署 SQL 数据库先决条件,创建 Visual Studio SQL 数据库项目,安装 Visual Studio GitHub 扩展,导入 AdventureWorks 数据库,连接到 GitHub Repo 源代码控制,将
    Apache CN

  • Azure数据工程指南-十九、部署数据工厂更改 先决条件,创建 DevOps 持续集成构建管道,创建 DevOps 持续部署发布渠道,验证部署的数据工厂资源,摘要,Azure PowerShell 任务停止触发器,ARM 模板部署任务,Azure PowerShell 任务启动触发器
    Apache CN

  • Azure数据工程指南-十八、用于 Cosmos DB 的 Azure Synapse 链接 创建一个 Azure Cosmos DB 帐户,启用 Azure Synapse 链接,创建一个 Cosmos DB 容器和数据库,将数据导入 Azure Cosmos DB,在 Azure Synapse Analytics 中创建
    Apache CN

  • 近期文章

    更多
    文章目录

      推荐作者

      更多