网站首页 > 技术文章 正文
同学们在学习“2×2列联表独立性检验(卡方检验)”时是否有这样的感受:这一块内容比较抽象,学习它到底有什么用?今天小编就和同学们来探讨到底什么是卡方检验.
1 什么是卡方检验?
在介绍卡方检验之前,我们首先需要介绍一种统计学思想“假设检验”,其基本逻辑是:根据所获样本,运用统计学方法对总体的某种假设作出检验和判断.假设检验又可分为参数假设检验和非参数假设检验,而列联表的独立性检验(又称卡方检验)就是非参数假设检验的一种.我们首先明确卡方检验最基本的目的:
“卡方检验主要用于分析两个分类变量的相关关系.
所谓分类变量,指的是取值为离散值的变量,比如“性别”就是一个分类变量,它的取值只有“男”和“女”.
比如说,我们要研究色盲与性别这两个分类变量是否有关,就可以对人群进行抽样,得到如下列联表:
我们可以从表中直观地观察出这样一个事实:男性人群的色盲比例明显高于女性,这似乎可以支持我们提出一个合理的猜想:色盲与性别是有关的.
卡方检验的发明者为英国数学家卡尔·皮尔逊,他认为需要一种方法来描述统计样本的实际观测值与理论推断值之间的吻合程度,即用以测定观察值与预期值之间的差异显著性,遂于1900年发布了著名的统计量,卡方检验提出后得到了广泛的应用,在现代统计理论中占有重要地位.
2 假设什么?
所谓“假设检验”首先就必须先提出假设,这里就涉及到一个问题:我们应该提出怎样的假设?这里提出原假设(null hypothesis,也称为零假设)和备择假设的概念:原假设是备择假设的对立面,同时遵循如下原则:
“原假设通常是研究者想收集证据予以推翻的假设,而备择假设则是研究者想收集证据予以支持的假设.所以一般是先假设两个随机变量无关,即相互独立.
相似的思想在法律中也有应用,法律的“疑罪从无”原则指的是如果没有证据就不能判一个人有罪.因此我们一般会提出原假设:这个人无罪,要说明他有罪,控方就必须提供充足的证据来推翻原假设.
根据这个原则,在上述“色盲与性别的关系”案例中,我们提出的原假设就应该是:
“H? :色盲与性别无关.
3 如何检验?
已经提出假设,接下来便是研究该如何“检验”.还是以色盲与性别的关系为例,由于检验的基本原理是基于原假设收集数据,从而测定观察值与预期值之间的差异显著性.因此我们的预期值应当是基于“色盲”与“性别”相互独立得到的,即:两个分类的交叉项的概率可以根据独立事件的概率乘法公式
得到:
具体而言,在这1000个人中,有:
那么想要计算出预期值,只要把上面这四个概率分别乘以样本总数1000就可以了,于是我们得到了理论频数表(括号内为观察值):
显然,四个单元格中的数据和括号内的数据有一定差距.如果原假设成立,它们应该相差不远.这个“相差不远”该如何用数据去衡量呢?容易想到用每一栏中观察值与期望值差的平方和来描述
但是这样会产生一个问题:这个指标与每一栏自身的样本容量有关,不同的样本其基数是不一样的.换言之,这里需要的是一个相对量而不是绝对量.因此我们还要将求和公式中的每一个平方项除以这一栏的预期值:
这里构造的就是皮尔逊发布的著名统计量,也即列联表的卡方检验公式.
根据这个公式,我们可以计算出上述案例的值:
那么,这个值该怎么用呢?
在这里,我们需要简单了解一下卡方分布,其中对其严格的数学推导还需同学们进入大学后深入学习.
如图给出了卡方分布的概率密度函数图,其中称为自由度,其值与独立变量的个数有关.在我们本文中研究的列联表中,的取值为1.与正态分布类似,卡方分布的概率密度曲线下的面积都是1.
现在给出分布分位点的概念:对于给定的正数,称满足条件
的点为分布的上分位点,称为显著性水平.
一个好消息是,对于不同的,上分位点的值已经被统计学家们研究透了,对此我们只需要查表即可!
比如,对于显著性水平,自由度,有
这个临界值的含义是:在成立时,值大于临界值的概率只有0.05,而我们刚刚计算出的数值,这说明在一次试验中发生了小概率事件,这与小概率原理矛盾.也就是说,我们可以推断“:色盲与性别无关”成立的可能性小于5%.或者说,我们可以拒绝,同时有95%的把握认为“色盲与性别有关”.
4 似曾相识的逻辑
聪明的同学可能已经发现了,卡方检验的方法其实就类似于反证法.
实际上,这两者既有联系也有区别.卡方检验先假设两变量独立,然后构造一个事件(具体来说该事件指的是皮尔逊检验统计量大于给定显著性水平下的临界值),它在我们的假设之下发生的概率极小(即为).如果它在实际情况中发生了,就与小概率原理矛盾,因此我们便可以拒绝原假设.这个过程和反证法的步骤是类似的.
需要注意的是,小概率事件确实在一次试验中几乎不可能发生,但这并不代表着在一次试验中它一定不发生,所以我们作出“拒绝原假设”的结论是有一定的犯错误概率的.而我们知道数学中的反证法只要逻辑正确是一定可以否定初始假设的命题的.因此,卡方检验并不完全是反证法,它是一种“基于概率性质的反证法”.
参考文献[1]浙江大学.概率论与数理统计(第四版)[Z].高等教育出版社,2008.[2]张亚锦,胡典顺,姚本武.概率与统计的知识理解之卡方检验[J].数学通讯,2021,No.859(14):1-4+28.
转载内容仅代表作者观点
不代表中科院物理所立场
如需转载请联系原公众号
来源:大小吴的数学课堂
编辑:Quantum Bard
- 上一篇: 什么是临界值? 什么是临界值的定义
- 下一篇: 宇宙膨胀的速度,一个重要的数值,天文学家们给出两种答案
猜你喜欢
- 2024-10-16 孙医生带你学统计第六天---单样本t检验的SPSS操作教程及结果解读
- 2024-10-16 宇宙膨胀的速度,一个重要的数值,天文学家们给出两种答案
- 2024-10-16 什么是临界值? 什么是临界值的定义
- 2024-10-16 电大-国开24秋《建筑测量》形考作业3
- 2024-10-16 统计学系列——两个重要统计量 有哪两种统计
- 2024-10-16 干货|数十个统计学术语,一文秒懂,涨薪升职必备的硬核知识!
- 2024-10-16 什么是最大似然估计、最大后验估计以及贝叶斯参数估计
- 2024-10-16 写毕业论文中,充用的回归分析中15个统计量解释
- 2024-10-16 回归分析中15个统计量详解 回归分析的统计符号
- 2024-10-16 16种常用的数据分析方法汇总 数据分析的六种分析方法
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)