计算机系统应用教程网站

网站首页 > 技术文章 正文

教你快速掌握Python描述统计 python常用描述统计方法包括

btikc 2024-09-25 15:12:28 技术文章 19 ℃ 0 评论

在学习描述统计之前,我们有必要了解一下数据的类型。有很多种对数据分类的方法,在这里,我们会将数据分为定性数据和定量数据。

其中,定性数据是对事物性质进行描述的数据,通常只有有限个离散取值,往往用于描述类别;定量数据则是呈现事物数量特征的数据,这些数据的大小往往是有意义的,它们可以相加、相减、相除甚至相乘,得到的结果往往是有意义的。

描述统计往往对应着数据探索的过程,我们在进行描述统计的时候,一般会从三个方面来完成:

  1. 图表
  2. 集中趋势的度量
  3. 离散趋势的度量

那么接下来我们就演示下如何使用Python来完成这些工作。

一、图表

我们经常会使用直方图、饼图、条形图、折线图、散点图等来描述数据的分布、趋势、变量间的相互关系等。

好的图表对于数据探索来说尤其重要,它们能帮我们节省大量的时间。关于可视化这一部分,我在前边写了一些文章:《从零开始学Python可视化》系列以及《7天学会Python最佳可视化工具Seaborn》系列,感兴趣的可以看一下我的历史文章,在这里我们就不赘述了。

二、集中趋势的度量

在分析数据的时候,我们往往最先想要关注的就是数据的集中分布情况,即这些数据主要分布在什么位置附近。

在统计学中,有许多专门用于描述数据集中趋势的统计量。常用的有算术平均值、几何平均值、中位数、众数、百分数等,接下来我们就用Python显示一下如何计算这些指标。

获取数据

首先,我们获取上证指数的历史行情数据,用于我们的学习。

import tushare as ts
pro = ts.pro_api()
df = pro.index_daily(ts_code='000001.SH')
df.head()

算数平均数

算数平均数可能是我们最熟悉的指标了,它就是我们常说的一组数据的平均值。计算方法很简单,先求得这组数据的和,然后除以这组数据的长度即可。

我们看下上证指数的历史收盘价的均值是多少:

df.close.mean()

输出为:

1916.2117831752516

在这里,我们使用了pandas内置的方法,直接得出了均值。但我们还有其他的备选方法,用于针对不同的数据格式:

# 使用numpy
import numpy as np
x = [1, 2, 3, 4]
mean = np.mean(x)
# 使用Python内置函数`sum`和`len`
mean = sum(x) / len(x)

几何平均数

几何平均数与算数平均数不同,它是将所有数据的乘积进行开方。比如我们有四个数据,那我们就需要先求得它们四个的乘积,然后对结果开四次方。

几何平均值特别适合用于收益率的数据分析,在我们的案例中,每天的收益数据就特别适合使用几何平均值来分析。

那我们就先来看下上证指数过去7天的年复合收益率是多少。

# 使用scipy
from scipy.stats import gmean
x = df.pct_chg[:7].map(lambda x: x/100+1)
g_mean = gmean(x)
# 使用Python自带工具
from functools import reduce
multi = reduce(lambda a, b: a * b, x)
g_mean = multi ** (1/len(x))
g_mean

输出为:

0.9950290138635192

嗯。。平均每天亏0.5个百分点,很像是A股的情况。

中位数

中位数的一个好处是对于离群点(异常值)不太敏感,而算数平均值很容易受到离群点的影响,比如有99个1,有1个101。它们的中位数肯定是1,这个很符合他们的分布情况;但是它们的算数平均值为2,这个就有些失真了。

我们看下如何计算他们的中位数。

# 使用pandas
df.pct_chg.median()
# 使用numpy
np.median(df.pct_chg)

输出为:

0.0664

哈哈哈,没想到吧,大多数的日子里,我们A股是涨的!

众数

众数代表了一组数据中出现次数最多的数值,它也不太容易受到极端值的影响,不过实际的数据分析过程中,我们用它的次数比较少。

from scipy.stats import mode
x = [1, 2, 3, 3, 3, 4, 4]
mode(x)[0][0]

输出为3。

百分位数

中位数就是一个特殊的百分位数——50分位数。另外两个常用的分位数是上下四分位数,它们分别代表了数据中按大小增序排列第75%和25%的位置的数字。

quantiles = [df.close.quantile(i) for i in [0.1, 0.25, 0.75, 0.9]]
quantiles

输出为:

[649.6120000000001, 1155.042, 2706.361, 3253.4112999999998]

可以看到,650高于10%的收盘价,1155高于25%的收盘价,2706高于75%的收盘价,3253则高于90%的收盘价。

三、离散趋势的度量

数据的集中分布仅仅是一个角度,想要全面的了解数据,还需要知道它们的变异性。统计学中有一系列的统计指标用于衡量数据的偏离程度,常用的有极差、平均绝对偏差、方差、标准差等。

极差

极差非常好理解,就是最大值与最小值之间的差。

# 使用pandas
df.close.max() - df.close.min()
# 使用numpy
np.max(df.close) - np.min(df.close)
# 使用Python自带工具
max(df.close) - min(df.close)

输出为5992.077。

平均绝对偏差(MAD)

我们可以用一组数据与它们的均值的偏差来度量数据的离散程度。很容易想到,它们与均值的偏差的和为0,因为他们是均匀分布在均值两侧的。因此我们不能使用偏差的和来度量离散程度,但是我们可以用偏差的绝对值的均值来完成这一任务。它代表了平均每个样本与其均值的偏差程度。

# 使用pandas

df.pct_chg.mad()

输出为:1.322715762398073

方差和标准差

这两个就常见许多了,对于方差的计算相当于把MAD的计算中“差值的绝对值”这一过程改成了“差值的平方”,而标准差则是方差的平方根。

# 使用pandas
# 方差
df.pct_chg.var() 
# 标准差
df.pct_chg.std() 
# 使用numpy
# 方差
np.var(df.pct_chg)
# 标准差
np.std(df.pct_chg)

方差输出为6.262636777426539,标准差输出为2.502526079270012。

好了,今天我们学习了常见的数据的描述统计并且使用Python模拟了计算过程,你学会了吗?

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表