读书笔记,白话统计系列,力图用普通话讲述统计学的基本概念。这里的题目是“决策与风险”,讲的就是两类错误(type I and type II errors)。以下改编至维恩堡《数理统计初级教程》(常学将等译,太原:山西人民出版社,1986),英文名叫Statistics: An Intuitive Approach By George H. Weinberg and John Abraham Schumaker 。这书几近绝迹,当回文抄公,以期重见天日。
1、假设与决策:场景
原假设:硬币是均匀的。 备择假设:硬币是有偏的。
当我们难以拒绝原假设时,只能得到结论:原假设也许是真的,现在不能拒绝它。而当我们能够拒绝它时,结论是:它肯定不真。以下的口语表述不如这里明确(和拗口)的,以这里的表述为准。
试验:在平坦的地方,独立地投掷硬币100次,每次投掷的结果都做记录。最后,正反面出现的次数分别是:
正面:55 反面:45
提问:根据你所看到的结果,判断一下,你接受还是拒绝”硬币是均匀的“这一假设?
R博士回答:“拒绝这个假设,因为所得到的正面数超过了反面数的允许界限,这表明硬币是有偏的。”
A博士回答:“接受硬币是均匀的这一假设。我们不能非难硬币掷出55个正面,45个反面,一个均匀的硬币也能掷出这个比率。”
R博士:“那什么样的结果才能使你拒绝那假设呢?我的意思是,正面数和反面数应该有多大的差异,才能使你认为硬币是有偏的?”
A博士:“至少90个正面对10个反面,或者90个反面对10个正面。如果我们的决策是拒绝一个掷出55对45这个比率,或者更高一些比率的硬币,那么这个决策将使我们把许多由于偶然掷出上述比率的均匀硬币都宣判为有偏的。你的看法使得非难一个均匀的硬币太容易了。”
R博士:“太过分了!至少要掷出90对10的比率你才说硬币是有偏的。你过度的轻信,将几乎不可能拒绝关于硬币是均匀的假设。诚然,你很少拒绝一个均匀的硬币,但对一个有偏的硬币,你也很难拒绝。”
上面的对话应该让大伙体会到了一些假设检验的意思。可以总结一下,对照下面的表格,思路会清晰一些:
判定\假设 | 真 | 假 |
---|---|---|
拒绝 | 第I类错误\(\alpha\) |
没有错误\(1-\beta\) |
接受 | 没有错误 | 第II类错误\(\beta\) |
A博士(Accept,接受)的法则是,除非试验得到的比率超过90比10,否则就接受硬币是均匀的这一假设。A博士厌恶犯否定均匀硬币的错误(“弃真”,第I类错误),他的法则使得犯这种错误的概率最小。由于均匀的硬币几乎不会出现超过90比10的比率,他很少冒把一个均匀的硬币说成有偏的风险。然而,他付出的代价是,大大降低了试验的检测能力(power,见下),他的法则使得拒绝假设是极端困难的。大量有偏的硬币也不会出现如90对10这样大的差异,因此它们也会被当成均匀的硬币而没有被检测出来。可以说,A博士对接受假设有偏爱,当假设为真时,他很少犯拒绝它的错误;但当假设不真时,他会常犯接受它的错误。
R博士(Reject,拒绝)的法则是,除非比率低于55对45,否则就不能接受硬币是均匀的这一假设,也即,仅当硬币的正反面数差异在一个狭窄的界限之内,她才接受假设。她把试验看成类似9.11时美国进行的安全检查(“宁可错杀三千,不可错过一个”),重要的是检测出有偏的硬币。R博士的法则在接受错误的假设方面所冒的风险极小(“取伪”,第II类错误),代价是增加了把一个均匀硬币判成有偏的风险。可以说,R博士对拒绝假设有偏爱,当假设碰巧不真时,她很少犯接受它的错误;但当假设碰巧为真时,她常犯拒绝它的错误。
2、决策与风险
2-1、决策与风险(用均匀的硬币做试验,第I类错误)
一次试验,不足以判断两位博士谁的法则是正确的。现在,用一个均匀的硬币(我们知道,两位博士不知道,这里的原假设是硬币是均匀的),把上面提到的投硬币试验,重复100次(每个试验由100次投掷构成),那么,记录下的正面数X,将构成一个二项分布,X~B(n,p),其中,n=100,p=0.5。根据某个中心极限定理,正态分布是二项分布的极限分布,上面的二项分布可以由均值为np=50,方差为np(1-p)=25的正态分布来近似。又因为二项分布只取整数值,在近似它的正态曲线下会出现很多空隙,为了校正这种情况,可以把整数的两头各扩大0.5个单位,以这个区间表示正态曲线下的那个数。
对R博士来说,仅当掷出的正面数多于45,少于55时,她才接受假设。在正态曲线下,这两个端点可以写成45.5和54.5。
标准化,\((45.5-50)/5=-0.9,(54.5-50)/5=0.9\)
,根据标准正态表,可知45.5-54.5这个接受区域包括了总面积的63%。也即,投掷均匀硬币所产生的样本中,有63%的样本,其正面数落在接受区域,相应地,其正面数落在R博士提出的否定域的概率为37%。也就是说,当硬币是均匀的时,R博士犯第I类错误的概率为37%。对A博士来说,他的接受区域在10-90之间,他几乎不会犯第I类错误。
2-2、决策与风险(用有偏的硬币做试验,第II类错误,功效)
现在取一个有偏的硬币(我们知道,两位博士不知道,这里的原假设还是硬币是均匀的),即投出正面的概率不等于二分之一(注意,说硬币是有偏的,并不必对p的值作出指定,因为硬币有偏可以有无限多种方式)。为了评价两位博士的法则在拒绝假设方面有多大的成功,我们需要对硬币指定一个偏度,比如是掷出正面的概率是0.6,做上面同样的100次试验(每次试验有100次投掷),近似成一个正态分布,均值\(np=60\)
,方差是\(np(1-p)=24\)
。
对A博士来说,他的判定法则是,只要得到的正面数在10到90之间就接受假设。显然,即使一个有偏的硬币所得到的正面数,也位于A博士的接受区域里。即,当硬币出现正面的概率为0.6时,A博士还是经常要接受均匀硬币的假设,他几乎总要犯第II类错误。
对R博士来说,她的判定法则是,仅当所得到的正面数位于45-55之间时,才接受假设。可以算出45.5-54.5的面积占整个正态曲线区域的13%,也就是说,在使用偏度为0.6的硬币做试验时,R博士错误地接受了硬币是均匀的这一假设的概率是13%(第II类错误),相应地,她正确地拒绝均匀硬币假设的概率为87%。
在这里描述的备择假设(在硬币是有偏的,偏度是0.6)下,A博士实际上没有能力检测出原假设(硬币是均匀)的错误,而R博士则有相当大的能力实现(87%).这里\(1-\beta=87%\)
也被定义为功效(power),即,当特别的原假设出现时,正确地拒绝原假设的概率。
3、假设检验
以上不厌其烦地强调了犯两类错误之间的tradeoff。在我们的假设检验中,采取的是类似A博士的法则,尽量减少犯第I类错误的概率(尽量不要“弃真”),尽管这将提高犯第II类错误(“取伪”)的机会。这是一个保守的策略,大概是因为犯第I类错误的风险更大,类似于法庭上“无罪推定”的法则:
原假设:被告无罪。 备择假设:被告有罪
除非有特别的充分的证据,否则就认为被告无罪。这里,把清白的被告处以极刑(第I类错误)的代价是非常大的,而释放有罪的被告(第II类错误),只是增加了一点司法成本。
待续,接下来的主要目的是,用类似的方式,说出P值是什么东西。
发表/查看评论