网站首页 > 技术文章正文

教你快速掌握Python描述统计 python常用描述统计方法包括

btikc 2024-09-25 15:12:28 技术文章 19 ℃ 0 评论

在学习描述统计之前，我们有必要了解一下数据的类型。有很多种对数据分类的方法，在这里，我们会将数据分为定性数据和定量数据。

其中，定性数据是对事物性质进行描述的数据，通常只有有限个离散取值，往往用于描述类别；定量数据则是呈现事物数量特征的数据，这些数据的大小往往是有意义的，它们可以相加、相减、相除甚至相乘，得到的结果往往是有意义的。

描述统计往往对应着数据探索的过程，我们在进行描述统计的时候，一般会从三个方面来完成：

图表
集中趋势的度量
离散趋势的度量

那么接下来我们就演示下如何使用Python来完成这些工作。

一、图表

我们经常会使用直方图、饼图、条形图、折线图、散点图等来描述数据的分布、趋势、变量间的相互关系等。

好的图表对于数据探索来说尤其重要，它们能帮我们节省大量的时间。关于可视化这一部分，我在前边写了一些文章：《从零开始学Python可视化》系列以及《7天学会Python最佳可视化工具Seaborn》系列，感兴趣的可以看一下我的历史文章，在这里我们就不赘述了。

二、集中趋势的度量

在分析数据的时候，我们往往最先想要关注的就是数据的集中分布情况，即这些数据主要分布在什么位置附近。

在统计学中，有许多专门用于描述数据集中趋势的统计量。常用的有算术平均值、几何平均值、中位数、众数、百分数等，接下来我们就用Python显示一下如何计算这些指标。

获取数据

首先，我们获取上证指数的历史行情数据，用于我们的学习。

import tushare as ts
pro = ts.pro_api()
df = pro.index_daily(ts_code='000001.SH')
df.head()

算数平均数

算数平均数可能是我们最熟悉的指标了，它就是我们常说的一组数据的平均值。计算方法很简单，先求得这组数据的和，然后除以这组数据的长度即可。

我们看下上证指数的历史收盘价的均值是多少：

df.close.mean()

输出为：

1916.2117831752516

在这里，我们使用了pandas内置的方法，直接得出了均值。但我们还有其他的备选方法，用于针对不同的数据格式：

# 使用numpy
import numpy as np
x = [1, 2, 3, 4]
mean = np.mean(x)
# 使用Python内置函数`sum`和`len`
mean = sum(x) / len(x)

几何平均数

几何平均数与算数平均数不同，它是将所有数据的乘积进行开方。比如我们有四个数据，那我们就需要先求得它们四个的乘积，然后对结果开四次方。

几何平均值特别适合用于收益率的数据分析，在我们的案例中，每天的收益数据就特别适合使用几何平均值来分析。

那我们就先来看下上证指数过去7天的年复合收益率是多少。

# 使用scipy
from scipy.stats import gmean
x = df.pct_chg[:7].map(lambda x: x/100+1)
g_mean = gmean(x)
# 使用Python自带工具
from functools import reduce
multi = reduce(lambda a, b: a * b, x)
g_mean = multi ** (1/len(x))
g_mean

输出为：

0.9950290138635192

嗯。。平均每天亏0.5个百分点，很像是A股的情况。

中位数

中位数的一个好处是对于离群点（异常值）不太敏感，而算数平均值很容易受到离群点的影响，比如有99个1，有1个101。它们的中位数肯定是1，这个很符合他们的分布情况；但是它们的算数平均值为2，这个就有些失真了。

我们看下如何计算他们的中位数。

# 使用pandas
df.pct_chg.median()
# 使用numpy
np.median(df.pct_chg)

输出为：

0.0664

哈哈哈，没想到吧，大多数的日子里，我们A股是涨的！

众数

众数代表了一组数据中出现次数最多的数值，它也不太容易受到极端值的影响，不过实际的数据分析过程中，我们用它的次数比较少。

from scipy.stats import mode
x = [1, 2, 3, 3, 3, 4, 4]
mode(x)[0][0]

输出为3。

百分位数

中位数就是一个特殊的百分位数——50分位数。另外两个常用的分位数是上下四分位数，它们分别代表了数据中按大小增序排列第75%和25%的位置的数字。

quantiles = [df.close.quantile(i) for i in [0.1, 0.25, 0.75, 0.9]]
quantiles

输出为：

[649.6120000000001, 1155.042, 2706.361, 3253.4112999999998]

可以看到，650高于10%的收盘价，1155高于25%的收盘价，2706高于75%的收盘价，3253则高于90%的收盘价。

三、离散趋势的度量

数据的集中分布仅仅是一个角度，想要全面的了解数据，还需要知道它们的变异性。统计学中有一系列的统计指标用于衡量数据的偏离程度，常用的有极差、平均绝对偏差、方差、标准差等。

极差

极差非常好理解，就是最大值与最小值之间的差。

# 使用pandas
df.close.max() - df.close.min()
# 使用numpy
np.max(df.close) - np.min(df.close)
# 使用Python自带工具
max(df.close) - min(df.close)

输出为5992.077。

平均绝对偏差（MAD）

我们可以用一组数据与它们的均值的偏差来度量数据的离散程度。很容易想到，它们与均值的偏差的和为0，因为他们是均匀分布在均值两侧的。因此我们不能使用偏差的和来度量离散程度，但是我们可以用偏差的绝对值的均值来完成这一任务。它代表了平均每个样本与其均值的偏差程度。

# 使用pandas

df.pct_chg.mad()

输出为：1.322715762398073

方差和标准差

这两个就常见许多了，对于方差的计算相当于把MAD的计算中“差值的绝对值”这一过程改成了“差值的平方”，而标准差则是方差的平方根。

# 使用pandas
# 方差
df.pct_chg.var() 
# 标准差
df.pct_chg.std() 
# 使用numpy
# 方差
np.var(df.pct_chg)
# 标准差
np.std(df.pct_chg)

方差输出为6.262636777426539，标准差输出为2.502526079270012。

好了，今天我们学习了常见的数据的描述统计并且使用Python模拟了计算过程，你学会了吗？

上一篇：中心极限定理的最最通俗解释中心极限定理及其意义
下一篇：正则化方法及Python实现 l正则化

网站首页 > 技术文章正文

教你快速掌握Python描述统计 python常用描述统计方法包括

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

教你快速掌握Python描述统计 python常用描述统计方法包括

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: