假设检验使统计推断的两大类方法之一。当关心的问题不需要给出具体的数字或者区间,而是做判断,这类问题被称之为假设检验问题 Hypothesis Tests。这里讲义中仅讨论参数假设检验。
概念
形式化
- H0 原假设
- H1 备择假设,检测的目的是判断原假设与备择假设中哪一个是成立的。
- 参数假设检验基本形式:
- 设总体来自与某参数分布族{F(x,θ),θ∈Θ}, 其中Θ为参数空间,包含所有可能参数。
- 假设检验定义为 H0:θ∈Θ0 vs. H1:θ∈Θ1, 其中 Θ0=∅,Θ1⊂Θ,Θ0∩Θ1=∅, 最常见的Θ1=Θ−Θ0
两种错误
- 基于样本数据做出接受/拒绝原假设的判断。由此把样本空间划分为互为补集的两部分:
- 拒绝域:如果样本数据判断出的参数落在拒绝域则拒绝原假设
- 接受域:反之,接受原假设
- 两种错误:
- 第一类错误:拒真, 概率记为 α=P(X∈拒绝域∣H0)
- 第二类错误:纳伪, 概率记为 β=P(X∈/拒绝域∣H1)
- 假设检验的核心问题:如果控制犯两类错误的概率
- 参数假设检验中可以使用功效函数pw(θ)定义错误概率为:
- α=pw(θ),θ∈Θ0
- β=1−pw(θ),θ∈Θ1
- 大多数情况下两种错误概率是背道而驰的,样本量不变的情况下,"按下葫芦浮起瓢":拒绝域选取上,在保证第一类错误概率不超过一定水平(显著性水平)下,选择第二类错误尽可能小的拒绝域
UMP
uniformly most powerful 一致最大功效,一个关于拒绝域的描述性定语
- 定义W为检验水平α的UMP拒绝域,则一切水平小于α的拒绝域W′,其功效均小于等于UMP拒绝域: pw(θ)≥pw′(θ),for any θ∈Θ1
- 定义W为检验水平α的无偏(unbiased)拒绝域:pw(θ)≥α,for any θ∈Θ1
- 定义W为检验水平α的一致最大功效无偏(UMPU)拒绝域,如果W同时使alpha的无偏拒绝域和UMP拒绝域。
似然比检验
- 似然比:设L(x1:n;θ)为似然函数,θ1,θ2∈Θ. 两参数的似然函数比为似然比:
LR=L(x1:n;θ1)L(x1:n;θ2)
- Neyman-Pearson定理:对于简单假设检验,似然比检验得到的拒绝域是UMP
- 似然比检验得到的拒绝域是无偏的
- 广义似然比检验:似然比假设推广至复合假设检验
- 设H0:θ∈Θ0, H1:θ ∈/Θ0, 定义广义似然比为λ(x1:n)=supθ∈Θ0L(x1:n;θ)supθ∈ΘL(x1:n;θ)=L(x1:n;θ0)L(x1:n;θ),
- 其中分子上的参数θ表示在整个参数空间上最大似然估计求得的参数,
- 而分母上的参数θ0表示在原假设参数空间上最大似然估计求得的参数
- 广义似然比的拒绝域定义为:W={x1:n:λ(x1:n)>λ0},λ0≥1
- 思想:如果原假设成立,则似然函数在原假设参数范围内的最大值应与全局最大值接近,如果相差很大,则有理由拒绝原假设
单参数指数型分布族
为了方便得获得UMP拒绝域得一般形式,尝试用单参数指数型分布族进行建模。
对于x∈X, 称X服从单参数指数型分布,如果其概率密度函数可以写为:
f(x;θ)=S(θ)h(x)exp{Q(θ)V(x)}
其中
- 变量θ定义在变量空间Θ=(a,b),−∞≤a<b≤∞
- S(θ)>0
- x∈X,h(x)>0
- 函数Q(θ)是变量的严格单调递增函数
很多常见的分布都属于这个范畴:
- 指数分布: f(x;λ)=λe−λx,S(λ)=λ,h(x)=1,Q(λ),V(x)=−x
- 正态分布(σ已知): f(x;μ)=2πσ1e−2σ2(x−μ)2=2πσ1e−2σ2x2−2μx+μ2=2πσ1e−2σ2x2eσ2μ(x−μ/2)
- 正态分布(μ已知): Q(σ)=−2σ21,V(x)=(x−μ)2
我们可以在这种分布下给出常见的假设检验UMP/UMPU, 步骤如下:
- 根据分布写出检验统计量: T(x1:n)=∑i=1nV(Xi),
- 根据假设检验写出拒绝域W形式,比如 T(x1:n)>C,T(x1:n)<C,T(x1:n)∈(C1,C2)
- 根据拒绝域的待定参数C,根据设定的检验水平α获得C的取值: Pθ0(T(X1:n)∈W)=α
正态总体:
- 关于期望的检验统计量为nXˉ或者Xˉ, 称为U检验
- 关于方差的检验统计量为∑i=1n(Xi−μ)2,成为卡方检验
置信区间
假设参数θ的置信区间为[L(X1:n),U(X1:n)],由此可以说明Pθ(θ∈[L,U])=1−α,for any θ inΘ
这相当于如下假设检验:
H0:θ=θ0vs. H1:θ=θ0
其中对于拒绝域W(θ0)可以定义概率Pθ0(X1:n∈W(θ0))=α,for any θ0∈Θ
p值
显著水平的重新选择需要重新计算参数空间中的拒绝域,引入p值就是根据样本把问题直接映射到显著水平的概率空间上来,直接与设定的显著水平做比较进行判断。
对于固定的样本集,我们可以计算出一个临界值p值,当p<α 时拒绝原假设,当p≥α 时接受原假设。
p(x1:n)=θ∈Θ0supPθ(T(X1:n)>T(x1:n))
在原假设下,获得比目前样本集更极端采样结果的概率。
- p值可以视为样本与原假设的相容程度。当p值小于α时,则认为两者不相容,拒绝原假设
- 检验时,可以先看p值,如果很小可以直接拒绝原假设,如果较大,则接受。这样避免考虑α取值
References
Photo by Nika Benedictova on Unsplash