知识体系对于后续的学习研究还是很重要的。INSA的通信工程的课程不包含数理统计,也让我后续在理解一些机器学习工作时感受到不小的困难。这篇博客是在阅读何志坚老师的开源讲义时整理的,感谢他的无私分享。
数理统计的目的是采集带有误差的数据,在设定的统计模型下,对数据分析并对关心的问题进行推断。总而言之:由局部信息推断整体性质
basic definitions
- 数据:带随机性的数据
- 真实数据:采集自真实世界
- 模拟数据:计算机模拟生成,即蒙特卡罗抽样获取
- 模型:产生随机数据的机制
- 统计推断:从数据到模型的推理
- 参数估计:描述模型的函数形式已知,根据数据求解具体参数
- 假设检验:对具体参数值不关心,只关心命题真假,比如“抛硬币获得正面的概率是0.5? (抛硬币是否公平?)”
学派之争
统计推断的学派之争本质是定义概率的视角不同,一个尝试寻找客观存在,一个辅助主观判断。
- 频率学派:总体概率分布是固定且未知的,数据可能是带噪的。我们可以通过采样推断寻找这个概率分布,推断最佳参数
- 贝叶斯学派:总体概率分布是无法确定的,但数据是真实确信的。我们只能从数据中推断参数的概率分布。
总体&样本
我们在讨论分布时谈到的数据对象可以分为总体和样本两种。
-
总体:研究对象的全体,其中每个成员是个体。常用随机变量X表示整体,随机变量x表示某个个体。推断统计的目标就是推断总体X的分布F(x)
-
样本:从总体中抽取(X1,X2,...Xn) n个个体观察, n是样本量
-
自由度:在计算时不受限制变化数值的数量。
- 比如对于n个随机采样点,我们可以写为n维向量,也是表示n个可自由变化的数字,其自由度也就是n
- 而在后文对n个采样点计算样本方差时,因为采样数据受限于函数∑in(xi−xˉ)=0,其自由度就变成了 n-1
-
简单随机抽样:
- 满足随机性、独立性
- 独立同分布 iid
- 样本在抽取前是n维随机变量 (X1,X2,...Xn)
- 样本在抽取后是具体的n个观测值 (x1,x2,...xn)
概率分布和抽样分布
概率分布族
根据一些信息,假设随机变量X的分布F(x)属于某个分布族F
- 参数族:数学形式已知,但包含m个未知参数, 形式化表示为F:={Fθ,θ∈Θ} 其中Θ⊂ℜm为参数空间
- 非参数族:分布F无法用有限个参数描述
统计量与估计量
- 统计量:依赖于样本(X1,X2...Xn)的函数,形式化为T=T(X1,X2,...Xn):ℜn→ℜ
- 估计量:用于估计参数的统计量
- 常用统计量:
- 样本均值: Xˉ=n1∑i=1nXi
- 样本方差: Sn2=n1∑i=1n(Xi−Xˉ)2
- 无偏样本方差: S′n2=n−11∑i=1n(Xi−Xˉ)2
- 样本标准差: Sn=Sn2
- 样本k阶原点矩: Xkˉ=n1∑i=1nXik
- 样本k阶中心矩: n1∑i=1n(Xi−Xˉ)k
- 顺序统计量: X(k) 递增排序第k位
- 充分统计量:一种特殊的统计量,可以简化数据同时不损失样本信息。某种意义上的降维
- 不损失样本信息:在已知该充分统计量时,模型参数变化对采样分布不会产生影响,也就是条件概率P(X1,X2,...Xn∣T) 不是参数θ的函数。注意:这里的不损失不意味着采样结果完全一致,而是样本分布一致。
抽样分布
统计量的概率分布,可细分为
- 精确抽样分布:总体X分布已知,直接可推导T(X1,X2...Xn)的分布
- 渐近抽样分布:寻求样本量n无限大时统计量T(X1,X2...Xn)的极限分布. 常用中心极限定理
- 近似抽样分布:寻找一种分布近似统计量T(X1,X2...Xn)的分布
样本均值Xˉ的抽样分布
- 精确抽样分布:如果X∼N(μ,σ2),则Xˉ∼N(μ,nσ2)
- 渐近抽样分布:不确定总体是否遵循正态分布,但可以估算E(X)=μ, Var(X)=σ2, 则采样均值渐近分布为Xˉ∼N(μ,nσ2)
- 卡方分布:对于X∼iidN(0,1),i=1,...n,称随机变量X=X12+X22...+Xn2 的分布为自由度为n的卡方分布,标记为X2(n)
- 概率密度函数:fn(x)=2n/2Γ(n/2)1{x>0}x2n−1e−2x
- 与Gamma分布概率密度函数的关系:Ga(2n,21)=X2(n)
- 可加性: 如果 X∼X2(n), Y∼X2(m), 且两随机变量独立,则 X+Y∼X2(n+m)
- 期望和方差: E(X)=n, Var(X)=2n
- 中心极限定理可得统计量依分布收敛为标准正态分布: 2nX−ndN(0,1)
正态总体抽样分布定理
关于总体分布是正态分布的数据的抽样分布定理,即(X1,X2,..Xn) 采样自总体分布 X∼N(μ,σ2)
- 均值分布Xˉ∼N(μ,nσ2)
- σ2nSn2=σ2∑i=1n(Xi−Xˉ)2∼X2(n−1)
- 样本均值Xˉ与样本方差Sn2相互独立
- “研究发现,只有正态总体才有“样本均值与方差独立”这一性质。”
t分布
设X∼N(0,1), Y∼X2(n)且两随机变量独立,则定义随机变量 T=Y/nX 为t分布,记为T∼t(n)
- 概率密度函数: fn(x)=nπΓ(2n)Γ(2n+1)(1+nx2)−2n+1
- 性质1: n-1时,t分布为柯西分布
- 性质2: limn→∞f(x)=2πe−2x2, 当自由度n增大,t分布逐渐接近标准正态分布。 n≥25时,t分布接近N(0,1)
- 样本均值与标准差之比的抽样分布: 设样本(X1,X2,...Xn) 来自 总体X∼N(μ,σ2), 则Sn/n−1Xˉ−μ=S′n/nXˉ−μ∼t(n−1)
- 对比:σ/nXˉ−μ∼N(0,1), t分布的密度函数是多项式衰减,而正态分布是指数阶衰减,远比t分布衰减快。所以t分布发生极端时间概率比正态分布更大。
F分布
设随机变量 X∼X2(m), Y∼X2(n)且两随机变量互相独立, 定义随机变量 Z=Y/nX/m的分布为第一自由度为m,第二自由度为n的F分布,记为Z∼F(m,n)
- 概率密度函数:fmn(x)=1{x>0}Γ(m/2)Γ(n/2)Γ(2m+n)(nm)m/2x2m−1(1+mx/n)−(m+n)/2
- 性质1: Z∼F(m,n) 则 1/Z∼F(n,m)
- 性质2: T∼t(n) 则 T2∼F(1,n)
- 两个独立正态分布的抽样分布: 设两独立总体 X∼N(μ1,σ1), Y∼N(μ2,σ2),从中采样获得(X1,X2,...Xn), (Y1,Y2,...Yn),样本方差为S1m2, S2n2, 则定义
- σ12/m+σ22/n(X−Y)−(μ1−μ2)∼N(0,1)
- S′2n2σ12S′1m2σ22∼F(m−1,n−1)
- 如果 σ1=σ2=σ, (1/m+1/n)(mS1m2+nS2n2)/(m+n−2)(Xˉ−Yˉ)−(μ1−μ2)∼t(m+n−2)
分位数
由累计分布函数可计算α分位数xα=F−1(α)
常用分位数符号:
- 标准正态分布N(0,1)分位数 uα
- t分布分位数 tα(n): n趋近无穷时, t分布极限分布为N(0,1), 所以在n较大时, tα(n)≈uα
- 卡方分布分位数 Xα2(n): 因为统计量依分布收敛于标准正态分布 2nX−ndN(0,1), 因此自由度n较大时, Xα2(n)≈μα2n+n
- F分布分位数 Fα(m,n)
对称性:常用于简化计算
- μα=−μ1−α
- tα(n)=−t1−α(n)
- Fα(m,n)=F1−α(n,m)1
References
Photo by Alois Komenda on Unsplash