网站首页 > 技术文章 正文
多数研究时,会对研究数据的分布情况进行查看,比如类别数据性别,可通过频数分析画饼图查看,定量连续数据时,可通过直方图查看正态性情况,或者使用PP/QQ图查看正态性,与此同时,还可使用核密度图直观查看数据分布情况,也可以使用小提琴图或者箱线图等查看数据的分布情况。下述列出几类常用的数据分布特征图形:
核密度图-背景
当前有一份关于高中生体验身高数据(50个样本),并且包括性别(男和女)和地区(北方和南方)两个特征,现希望查看下身高的分布情况,直观展示身高特征情况。当然默认可使用直方图展示数据分布情况,如下图:
明显地可以看到,高中生身高数据更多集中于1.65~1.75之间,与此同时,还可进一步使用核密度图查看。
核密度图-理论
核密度图是一种非参数检验方法,其是对直方图的进一步抽象化,但其更加直观,其曲线下面积为1,通常用于连续数据的直观展示,比如年龄的分布情况,身高的分布情况等。核密度图中会涉及带宽值,该值会对分布图的准确性有一定影响,SPSSAU自动计算带宽值时是按照‘大拇指法则’进行,其为非参数检验的内部原理参数值,通常自动让系统计算即可。
SPSSAU中核密度图的使用非常简单,直接将分析项拖拽进入分析框即可。如下说明:
如果包括X(比如性别),分析项为身高,那么是想研究不同性别的身高分布情况;
如果不包括X,只有分析项且分析项大于1个,SPSSAU默认会展示每个分析项的核密度图,并且汇总展示所有分析项在一个核密度图中。
核密度图-操作
本案例操作截图如下:
h带宽图建议不输入,系统默认会以‘大拇指法’进行自动计算。由于暂不区分性别或者地区的身高分布,因而X项不用放入。
核密度图-SPSSAU输出结果
SPSSAU共输出图形和自动计算后的h带宽值表格,分别说明如下:
从核密度图可以明显的看到,身高主要集中于1.65~1.75之间,小于1.65或者大于1.75的样本相对均较少。相对于直方图,核密度图得到的结论也一致,二者的功能意义完全一致,但相对更加抽象和直观化。另图形中有展示带宽值h,可按研究者需要修改标题内容,同时下表格展示带宽值。
文字分析:
上述案例中直接针对身高数据进行核密度图展示,如果还希望进一步观察比如不同性别,或者不同地区样本的身高分布情况,便于进行对比。操作和结果如下:
将性别放入X框中,最终得到不同性别群体身高的核密度图对比图如下:
上图可以看到:男生群体主要集中在1.7米左右,非常集中,但是女生群体身高分布较为均匀,各个身高分布段都比较均匀,并没有特别的固定集中身高区间。
核密度图:剖析
涉及以下几个关键点,分别如下:
SPSSAU核密度图带宽值计算使用‘Silverman大拇指法则’,并且默认使用高斯正态核密度公式进行计算核密度值。
核密度图用于数据分布展示时使用,通常是针对连续数据更加适合,与此同时,很多研究方法时也会使用到核密度图,比如倾向得分匹配PSM法,RDD断点回归时。
猜你喜欢
- 2024-11-14 《Nat. Mater.》:钙钛矿薄膜||皮秒自旋畴形成
- 2024-11-14 Mean Shift算法解释及举例python mean stuff
- 2024-11-14 Seaborn库绘制单变量分布和双变量分布
- 2024-11-14 机器学习库—seaborn绘制绘制统计图形
- 2024-11-14 数据量太大?散点图装不下怎么办?用Python解决数据密度过大难题
- 2024-11-14 基于密度(Density-based)的聚类——核密度估计(KDE)
- 2024-11-14 数据分布-核密度估计 #绘图 核密度估计图怎么看
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)