网站首页 > 技术文章 正文
在学习描述统计之前,我们有必要了解一下数据的类型。有很多种对数据分类的方法,在这里,我们会将数据分为定性数据和定量数据。
其中,定性数据是对事物性质进行描述的数据,通常只有有限个离散取值,往往用于描述类别;定量数据则是呈现事物数量特征的数据,这些数据的大小往往是有意义的,它们可以相加、相减、相除甚至相乘,得到的结果往往是有意义的。
描述统计往往对应着数据探索的过程,我们在进行描述统计的时候,一般会从三个方面来完成:
- 图表
- 集中趋势的度量
- 离散趋势的度量
那么接下来我们就演示下如何使用Python来完成这些工作。
一、图表
我们经常会使用直方图、饼图、条形图、折线图、散点图等来描述数据的分布、趋势、变量间的相互关系等。
好的图表对于数据探索来说尤其重要,它们能帮我们节省大量的时间。关于可视化这一部分,我在前边写了一些文章:《从零开始学Python可视化》系列以及《7天学会Python最佳可视化工具Seaborn》系列,感兴趣的可以看一下我的历史文章,在这里我们就不赘述了。
二、集中趋势的度量
在分析数据的时候,我们往往最先想要关注的就是数据的集中分布情况,即这些数据主要分布在什么位置附近。
在统计学中,有许多专门用于描述数据集中趋势的统计量。常用的有算术平均值、几何平均值、中位数、众数、百分数等,接下来我们就用Python显示一下如何计算这些指标。
获取数据
首先,我们获取上证指数的历史行情数据,用于我们的学习。
import tushare as ts pro = ts.pro_api() df = pro.index_daily(ts_code='000001.SH') df.head()
算数平均数
算数平均数可能是我们最熟悉的指标了,它就是我们常说的一组数据的平均值。计算方法很简单,先求得这组数据的和,然后除以这组数据的长度即可。
我们看下上证指数的历史收盘价的均值是多少:
df.close.mean()
输出为:
1916.2117831752516
在这里,我们使用了pandas内置的方法,直接得出了均值。但我们还有其他的备选方法,用于针对不同的数据格式:
# 使用numpy import numpy as np x = [1, 2, 3, 4] mean = np.mean(x) # 使用Python内置函数`sum`和`len` mean = sum(x) / len(x)
几何平均数
几何平均数与算数平均数不同,它是将所有数据的乘积进行开方。比如我们有四个数据,那我们就需要先求得它们四个的乘积,然后对结果开四次方。
几何平均值特别适合用于收益率的数据分析,在我们的案例中,每天的收益数据就特别适合使用几何平均值来分析。
那我们就先来看下上证指数过去7天的年复合收益率是多少。
# 使用scipy from scipy.stats import gmean x = df.pct_chg[:7].map(lambda x: x/100+1) g_mean = gmean(x) # 使用Python自带工具 from functools import reduce multi = reduce(lambda a, b: a * b, x) g_mean = multi ** (1/len(x)) g_mean
输出为:
0.9950290138635192
嗯。。平均每天亏0.5个百分点,很像是A股的情况。
中位数
中位数的一个好处是对于离群点(异常值)不太敏感,而算数平均值很容易受到离群点的影响,比如有99个1,有1个101。它们的中位数肯定是1,这个很符合他们的分布情况;但是它们的算数平均值为2,这个就有些失真了。
我们看下如何计算他们的中位数。
# 使用pandas df.pct_chg.median() # 使用numpy np.median(df.pct_chg)
输出为:
0.0664
哈哈哈,没想到吧,大多数的日子里,我们A股是涨的!
众数
众数代表了一组数据中出现次数最多的数值,它也不太容易受到极端值的影响,不过实际的数据分析过程中,我们用它的次数比较少。
from scipy.stats import mode x = [1, 2, 3, 3, 3, 4, 4] mode(x)[0][0]
输出为3。
百分位数
中位数就是一个特殊的百分位数——50分位数。另外两个常用的分位数是上下四分位数,它们分别代表了数据中按大小增序排列第75%和25%的位置的数字。
quantiles = [df.close.quantile(i) for i in [0.1, 0.25, 0.75, 0.9]] quantiles
输出为:
[649.6120000000001, 1155.042, 2706.361, 3253.4112999999998]
可以看到,650高于10%的收盘价,1155高于25%的收盘价,2706高于75%的收盘价,3253则高于90%的收盘价。
三、离散趋势的度量
数据的集中分布仅仅是一个角度,想要全面的了解数据,还需要知道它们的变异性。统计学中有一系列的统计指标用于衡量数据的偏离程度,常用的有极差、平均绝对偏差、方差、标准差等。
极差
极差非常好理解,就是最大值与最小值之间的差。
# 使用pandas df.close.max() - df.close.min() # 使用numpy np.max(df.close) - np.min(df.close) # 使用Python自带工具 max(df.close) - min(df.close)
输出为5992.077。
平均绝对偏差(MAD)
我们可以用一组数据与它们的均值的偏差来度量数据的离散程度。很容易想到,它们与均值的偏差的和为0,因为他们是均匀分布在均值两侧的。因此我们不能使用偏差的和来度量离散程度,但是我们可以用偏差的绝对值的均值来完成这一任务。它代表了平均每个样本与其均值的偏差程度。
# 使用pandas
df.pct_chg.mad()
输出为:1.322715762398073
方差和标准差
这两个就常见许多了,对于方差的计算相当于把MAD的计算中“差值的绝对值”这一过程改成了“差值的平方”,而标准差则是方差的平方根。
# 使用pandas # 方差 df.pct_chg.var() # 标准差 df.pct_chg.std() # 使用numpy # 方差 np.var(df.pct_chg) # 标准差 np.std(df.pct_chg)
方差输出为6.262636777426539,标准差输出为2.502526079270012。
好了,今天我们学习了常见的数据的描述统计并且使用Python模拟了计算过程,你学会了吗?
- 上一篇: 中心极限定理的最最通俗解释 中心极限定理及其意义
- 下一篇: 正则化方法及Python实现 l正则化
猜你喜欢
- 2024-09-25 果断收藏!python数据分析入门学习笔记(下)
- 2024-09-25 「机器学习」支持向量机分类 支持向量机 知乎
- 2024-09-25 数据可视化之箱线图详细介绍 箱线图绘制步骤
- 2024-09-25 简单的统计学:如何用Python计算扑克概率
- 2024-09-25 Python进行数据预处理 python如何做数据处理
- 2024-09-25 Distribution is all you need:这里有12种做ML不可不知的分布
- 2024-09-25 如何使用 Qdrant DB 创建基于向量的电影推荐系统?
- 2024-09-25 如何可视化卷积网络分类图像时关注的焦点
- 2024-09-25 感知机:教程,实现和可视示例 感知机定义
- 2024-09-25 数据处理中的“归一化”到底是什么?Talk is cheap,show me the code
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)