数据分析(1)——统计学中的各种分布
1. 离散概率分布 1.1 二项分布 1.1.1 二项分布的定义及其公式
① 定义:在给定每次实验的成功概率p、实验次数n的情况下,成功数x的频数分布。
在二项分布中,关注的是在n次试验中成功出现的次数。
② 二项分布的概率函数:
③ 二项分布的数学期望和方差:
1.1.2 二项分布的性质(适用情况)
① 实验由一系列相同的n个实验组成
② 每次实验都有两种可能结果,及成功和失败
③ 每次实验成功的概率相同,用p表示,失败概率则为1-p
④ 实验都是相互独立的
1.1.3 例题
如果链接点击转换为购买的概率为0.02,那么观测到200次点击但没有购买的概率?
解答:
1.2 伯努利分布 1.2.1 伯努利分布的定义及其公式
① 定义:在二项分布n=1时的特例,一次随机实验,成功的概率为p,失败的概率为q=1-p,成功的次数也只有0和1两种情况。
② 概率密度:
③ 期望和方差:
1.2.2 伯努利分布的适用情况(举例)
抛硬币(正反)、检测产品(合格 不合格)、买彩票(中奖 未中奖)
1.3 几何分布 1.3.1 几何分布的定义和公式
① 定义:在重复多次的伯努利实验中,实验进行到某种结果出现第一次为止,此时的实验总次数符合几何分布。
② 概率密度:
其中,p为成功的概率,即为了在第x次尝试取得第1次成功,首先要失败(x-1)次。
③ 期望和方差:
1.3.2 几何分布的适用情况(与二项分布的区别)
二项分布关注“n次实验中成功x的概率”,几何分布关注“第x尝试取得第1次成功的概率”。
1.3.3 几何分布的题目
例:一位滑雪者不出意外顺利滑至坡底的概率为0.4,求
① 前10次滑雪失败,第11次成功的概率
② 第4次或者不足4次就成功的概率
③ 4次以上才能成功的概率
解答:
① 前10次滑雪失败,第11次成功的概率:
② 第4次或者不足4次就成功的概率:
③ 4次以上才能成功的概率:
1.4 泊松分布 1.4.1 泊松分布的定义和公式
① 定义:单位时间内或者单位空间中事件数量的频数分布
② 概率密度:
其中,泊松分布的参数λ是单位时间(单位面积)内随机事件的平均发生次数。
③ 期望和方差:λ
④ 分布图:
1.4.2 泊松分布的性质
① 在任意两个相等长度的区间上,事件发生的概率相等。
② 事件在某一区间上是否发生与事件在其他区间是否发生是独立的。
1.4.3 泊松分布的适用情况(例题)
如:一小时内到达候车厅的人数、10英里长的高速路上需要维修的路段数目
工作日早上15min内到达某银行出纳窗口的汽车数量:
历史数据显示,15min内到达车辆的平均数为10,求15min内恰好到达五辆车的概率。
解答:
2 连续概率分布 2.1 指数分布 2.1.1 指数分布定义和公式
① 定义:建模各次事件之间的时间分布情况
② 概率密度函数:
③ 分布函数:
④ 期望与方差:
⑤ 分布图:
2.1.2 指数分布适用情况
如:网站访问的时间间隔、汽车抵达收费站的时间间隔
2.1.3 指数分布与泊松分布的区别
泊松分布描述了每一区间中事件发生的次数,
指数分布描述了事件发生的时间间隔长度。
2.2 均匀分布 2.2.1 均匀分布的公式
① 定义:均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的 。
② 概率密度:
③ 概率分布:
④ 期望和方差:
⑤ 分布图:
2.3 正态分布(高斯分布) 2.3.1 正态分布定义及公式
① 定义:经常用在自然和社会科学来代表一个不明的随机变量,比如人的身高和体重、考试成绩、科学测量、降雨量等,都近似正态分布。
② 概率密度:
当期望=0,方差=1时,为标准正态分布:
③ 分布图:
2.3.2 正态分布的特征
① 正态曲线的最高点在均值处,均值还是分布的中位数和众数
② 正态分布是对称的
③ 标准差决定曲线的平坦程度,标准差越大,曲线越平坦
④ 正态随机变量的概率是由正态曲线下的面积给出
2.3.3 正态分布的性质
小结