网站首页 > 技术文章 正文
一、箱线图
箱线图(Box-plot)又称盒须图、盒式图或箱形图,是一种用作显示一组数据分散情况资料的统计图,在数据分析中经常被使用到,可以被用于异常值的检测。
通过箱线图可以很容易找到数据中的异常值。
二、使用python绘制箱线图
数据集地址:http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data
1、未标准化的箱线图
import pandas as pd import numpy as np import matplotlib.pyplot as plt if __name__ == "__main__": data = pd.read_csv("G:/dataset/abalone.csv") #需要绘制箱形图的列,不包括ID列和第一列 box_data = np.array(data.ix[:,2:10]) #绘制箱线图 plt.boxplot(box_data) plt.xlabel("特征索引") plt.ylabel("四分位间距") plt.show()
matplotlib的boxplot默认的上边缘到上四分位数的间距是1.5IQR,可以通过whis参数进行调节,超过了上边缘Q3+1.5IQR和下边缘Q1-1.5IQR的部分视为异常值也就是图中的圆圈所表示的点。通过上面的箱线图可以发现,由于第8个属性的取值区间比较广,导致其他属性的箱线图被压缩。
2、标准化的箱线图
通过将数据进行标准化,可以解决箱线图被压缩的问题。
#对数据进行标准化 box_data = (box_data - np.mean(box_data,axis=0)) / np.std(box_data,axis=0) plt.boxplot(box_data)
标准化后的数据均值为0,方差为1。标准化之后可以清楚的看到,每个特征的异常值分布情况。
猜你喜欢
- 2024-09-25 果断收藏!python数据分析入门学习笔记(下)
- 2024-09-25 「机器学习」支持向量机分类 支持向量机 知乎
- 2024-09-25 简单的统计学:如何用Python计算扑克概率
- 2024-09-25 Python进行数据预处理 python如何做数据处理
- 2024-09-25 Distribution is all you need:这里有12种做ML不可不知的分布
- 2024-09-25 如何使用 Qdrant DB 创建基于向量的电影推荐系统?
- 2024-09-25 如何可视化卷积网络分类图像时关注的焦点
- 2024-09-25 感知机:教程,实现和可视示例 感知机定义
- 2024-09-25 数据处理中的“归一化”到底是什么?Talk is cheap,show me the code
- 2024-09-25 深度残差网络+自适应参数化ReLU(调参记录23)Cifar10~95.47%
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)