Z-检定、t-检定

一、前言

假设今天我们获得一笔随机样本资料,且此样本取自于未知来源的族群,该如何判断此样本是否来自于某一特定的族群?我们通常会用平均值和变异数来表示某一族群的特性,而本篇主要介绍样本资料是否来自于某一特定平均值族群的检定,在此会介绍当族群标準差 \(\sigma\) 已知的\(Z\)-检定及当族群标準差 \(\sigma\) 未知的\(t\)-检定。

二、Z-检定 (Z-test)

\(Z\)-检定是应用在抽得样本的族群平均数未知、但此族群标準差已知为 \(\sigma\) 的情况,藉由比较样本平均值 \(\overline{y}\) 与预先设定好的族群平均值 \(\mu_0\),来判断此随机样本是否抽取自族群平均值为 \(\mu_0\) 的常态分布。计算样本平均值之标準化值 \(Z\) 过程为:

\(\displaystyle Z=\frac{|\overline{y}-\mu_0|}{\sigma/\sqrt{n}}~~~~~~~~~(1)\)

(1) 式中的 \(\overline{y}\) 为此组随机样本平均值,\(\mu_0\) 为虚无假设预设的平均值,\(\sigma\) 族群已知的标準差,\(n\) 则是抽样的样本数。例如,欲检定某一大豆品种每公顷的平均产量是否等于 \(\mu_0= 1500\) 公斤,研究人员由栽种此品种大豆的田地中,随机取样 \(n=36\) 块面积为一公顷的田地,分别记录此大豆品种的产量,并计算出这笔随机样本平均产量 \(\overline{y}\) 为 \(1520\) 公斤,而研究者在事前已知族群标準差 \(\sigma\) 为 \(350\) 公斤,则计算出来的

\(\displaystyle Z=\frac{|\overline{y}-\mu_0|}{\sigma/\sqrt{n}}=\frac{1520-1500}{350/\sqrt{36}}=0.34\)

\(20\) 公斤的差异 (或 \(Z = 0.34\)) 够不够大?我们可以指定一个合理的临界值,如果差异小于这个临界值,我们就认定此样本就来自平均值为 \(\mu_0\) 的族群。这个临界值我们通常设为 \(Z_{0.025}=1.96\),这个数字是标準常态分布的 \(97.5\%\) 百分位数。在大豆平均产量的範例中,由于 \(Z < 1.96\),表示此大豆品种的族群平均产量与 \(1500\) 公斤无显着差异,而样本平均值 \(1520\) 公斤略高于 \(1500\) 公斤,单纯是抽样误差造成的结果。

三、t-检定 (Student’s t-test)

\(Z\)-检定的概念可延伸至\(t\)-检定,而\(t\)-检定是应用在抽得样本的族群平均数未知、族群标準差也未知的情况。然而在介绍\(t\)-检定之前,就先让我们探究其名称的由来。

二十世纪初,位于爱尔兰都柏林的Guinness酿酒公司为了开发新的酿酒科学技术,雇用一群牛津大学和剑桥大学毕业的化学家,包含拥有牛津化学和数学双学位的W.S. Gosset。Gosset发挥其在管理上的长才,但是他对于酿酒公司最大的贡献却是来自统计研究。由于当时公司的政策是为避免商业机密公开,不准员工对外发表文章,Gosset藉由好友Karl Pearson担任当时<生物统计>期刊的主编的机缘,决定以Student的笔名发表其研究成果,其后三十年,Student写了一系列极重要的论文,几乎都发表在<生物统计>上,\(t\)-检定就是其中之一,而Guinness公司始终不知道Student的真实身分,直到1937年Gosset意外死于心脏病后,数学界好友群聚在Guinness公司,想集资为其论文出专书,公司才得知此消息。

假设 \(n\) 个观测值抽自同一常态族群,且此常态族群平均值 \(\mu\) 与族群标準差 \(\sigma\) 均未知,(1) 式的 \(Z\) 值将无法计算,替代方案是以样本标準差 \(s\) 取代未知的族群标準差 \(\sigma\),得以下 \(t\) 值公式:

\(\displaystyle t=\frac{|\overline{y}-\mu_0|}{s/\sqrt{n}}~~~~~~~~~(2)\)

\(t\) 值服从自由度为 \(n-1\) 的 \(t\) 分布。\(t\) 分布为对称于 \(0\) 的钟型分布,但其尾部较标準常态分布厚,即变异比标準常态分布大,随着自由度增大,\(t\) 分布会逐渐趋向于标準常态分布(图一)。

Z-检定、t-检定

图一 t分布的图,可发现当自由度越大时,t分布两侧会越来越薄,而且越来越近似标準常态分布。

\(t\)-检定与\(Z\)-检定相仿,藉由比较样本平均值 \(\overline{y}\) 与预先设定好的族群平均值 \(\mu_0\),来判断此随机样本是否抽取自族群平均值为 \(\mu_0\)的常态分布。若 (2) 式的 \(t\) 统计量小于指定的临界值,我们就认定此样本就来自平均值为 \(\mu_0\) 的族群;\(t\) 检定的临界值我们通常设为 \(t_{0.025,n-1}=\) 自由度为 \(n-1\) 的 \(t\) 分布的 \(97.5\%\) 百分位数,该数值可以利用 Excel 的T.INV函式取得。

假设研究者获得一笔样本数为 \(10\),其样本平均值 \(\overline{y}\) 为 \(41\) 以及样本标準差 \(s\) 为 \(3.59\) 的资料,代入 (2) 式得

\(\displaystyle t=\frac{|\overline{y}-\mu_0|}{s/\sqrt{n}}=\frac{|41-42|}{3.59/\sqrt{10}}=0.88\)

由于此笔资料的样本数为 \(10\),因此计算出来的 \(t\) 值自由度为 \(9\),以Excel函式 \(\mathrm{T.INV}(0.975, 9)\) 可得\(t_{0.025,n-1}=2.262\),由于 \(t\) 值 \(= 0.88 < 2.262\),表示抽取此样本之族群的平均值与 \(42\) 无显着差异。


参考文献

上一篇: 下一篇: