网站首页 > 技术文章正文

Python进行数据预处理 python如何做数据处理

btikc 2024-09-25 15:13:26 技术文章 16 ℃ 0 评论

0 序言

数据预处理是我们在做机器学习之前必经的一个过程，在机器学习中常见的数据预处理包括:

（1）缺失值处理；

（2）缩放数据；

（3）对数据进行标准化处理这三个过程。

1 缺失值处理：

缺失值处理是我们在做数据分析/机器学习过程中经常会遇到的问题，我们需要一种处理不完整数据的策略/方法。

对缺失值处理有两种方法：

（1）一种是直接对某一列中的缺失值进行处理，

（2）一种是根据类别标签，分类别对缺失值进行处理。

方法（1）：我们先看如何在没有类别标签的情形下修补数据。比较简单粗暴的方法就是直接忽略，也就是删除缺失值，这种策略适用于数据集中缺失值占比很小，去掉其以后对整体影响不大的情况。这里需要注意的是删除某一个缺失值时，需要把和该值一个维度/行的值也一起删除，但是其他值可能对数据整体的影响比较大，所以用这种方法的时候要慎重。

一种可以避免这种情况的方法就是给缺失值赋予一个值，这个值一般就是该缺失值所在列的均值、中位数之类的。我们这里用sklearn库中的preprocessing模块中的Imputer()函数来处理缺失值

#加载库
from sklearn.datasets import load_iris
from sklearn.preprocessing import Imputer
import numpy as np
import numpy.ma as ma
?
#加载数据集
data=load_iris()
x=data['data']
y=data['target']
print(x,y)   #01处
?
#将原始数据复制一份
x_t = x.copy()
?
#在第3行制造一些缺失值
x_t[2,:] = np.repeat('NaN',x.shape[1]) #x_t[2,:] = np.repeat('NaN',x.shape[1])
print(x_t)   #02处
?
?
#创建Imputer对象，采用平均值策略
imputer = Imputer(missing_values=0,strategy="mean") #先声明对缺失值的替换策略
x_inputed = imputer.fit_transform(x_t) #使用定义的策略进行替换
print(x_inputed) #03处

preprocessing.Imputer 函数解释：

1.sklearn.preprocessing.Imputer(missing_values=’NaN’, strategy=’mean’, axis=0, verbose=0, copy=True)
2. #missing_values为待替换的缺失值，可以为NaN,也可以为具体数值
3. #strategy为替换策略，有mean、medium、most_frequent分别表示均值、中位数、众数三者来填充
4. #axis=0表示按列填充，1表示按行填充
5. #copy设置为False时表示不在原数据基础上修改

方法（2）:我们有的时候可能需要根据类别（比如我们要根据性别这个分类来分别给身高这个缺失值进行填充）分别进行缺失值的处理，这个时候需要先把不同类别的数据找出来，这里用的是np.where()函数，该函数在前面有提到，用该函数找出不同类别以后，处理方法就和不分类别处理的方法一致，只不过是根据类别的不同，处理的次数不同。

2 缩放数据：

缩放数据集的目的是为了防止“大数吃小数”的现象发生，大数吃小数就类似于生活中同样一个环境下声音大的盖过声音小的，最后导致只能听见声音大的发声，导致了最后的结果只考虑了声音较大的那一部分，而忽略了声音较小的那一部分，但实际中声音小的也需要被听到，为了防止这种声音大的盖过声音小的现象的发声，我们采取了一定的限制，就是把所有的声音按照一定的规则限制在某一个区间内（在这个区间内，能够保证不管声音大小都会被听到），你声音再大也不能超过这个限制的最大值。我们把这个过程称为数据的缩放（当然了，刚刚举得那个例子是缩的方面）。

上面那个在生活中的例子，而在机器学习的学习过程中，也会有很多特征之间出现上面大数吃小数的问题，所以我们在进行学习之前，需要先对数据进行预处理以后再进行学习。

#加载库
import numpy as np
?
#生成待缩放的随机数
np.random.seed(10)
x=[np.random.randint(10,25)*1.0 for i in range(10)]
?
#定义缩放函数
def min_max(x):
    return([round((xx-min(x))/(1.0*(max(x)-min(x))),2) for xx in x])
?
#对给定的数据进行缩放
print(x)
print(min_max(x))

Note:

np.random.seed()#用于指定随机数生成时所用算法开始的整数值。

np.random.randint(low,high=None,size=None)#生成在半开半闭区间[low,high)上离散均匀分布的整数值，若high=None,则取值区间变为[0,low)。

round(x,a)#用来返回浮点数的四舍五入值,x表示待处理的值，a表示保留的位数。

(2) 把数据缩放到(0,1)范围内除了上面提到的自定义一个函数以外，还可以通过preprocessing.MinMaxScaler()进行实现。

import numpy as np 
from sklearn import preprocessing 
x=np.array([[1. ,-1. , 3.],
            [2.,8., 6.],
            [3., 6.,9.]])
min_max_scaler = preprocessing.MinMaxScaler()
x_min_max = min_max_scaler.fit_transform(x)
print(x_min_max)

结果如下：

关于preprocessing.MinMaxScaler的一些注意事项，该函数对象需要是多维数组&float类型数，要不然会报错，虽然也能出来结果。

关于数据缩放：

通常情况下是把数据缩放到[0,1]区间内，公式是(x-min(x)/(max(x)-min(x)),我们上面用到的就是这种方式，当然了也可以将值缩放到任意区间内[nr_min,nr_max]，公式是(x-min(x))/(max(x)-min(x))*(nr_max-nr_min)+nr_min

3 标准化数据：

所谓的标准化就是将给定向量转换成平均值为0，标准差为1的形式。公式如下：X=x-mean(value)/std(x)

#加载库
import numpy as np
from sklearn.preprocessing import scale
#生成随机数
np.random.seed(10)
x=[np.random.randint(10,25)*1.0 for i in range(10)]
#数据标准化
x_centered=scale(x,with_mean=True,with_std=False)
x_standard=scale(x,with_mean=True,with_std=True)
print("x:{}".format(x))
print("x_centered:{}".format(x_centered))
print("x_standard:{}".format(x_standard))

结果如下：

关于preprocessing.scale函数解释：

sklearn.preprocessing.scale(X, axis=0, with_mean=True,with_std=True,copy=True)
#参数解释：
#X：数组或者矩阵
#axis：int类型，初始值为0，axis用来计算均值 means 和标准方差 standard deviations. 如果是0，则单独的标准化每个特征（列），如果是1，则标准化每个观测样本（行）。
#with_mean: boolean类型，默认为True，表示将数据均值规范到0
#with_std: boolean类型，默认为True，表示将数据方差规范到1

缩放和标准化分别是归一化的两种不同方式。关于归一化具体在机器学习中的应用，我们在之后再说。

上一篇： Distribution is all you need:这里有12种做ML不可不知的分布
下一篇：简单的统计学:如何用Python计算扑克概率

网站首页 > 技术文章正文

Python进行数据预处理 python如何做数据处理

0 序言

1 缺失值处理：

2 缩放数据：

3 标准化数据：

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

Python进行数据预处理 python如何做数据处理

0 序言

1 缺失值处理：

2 缩放数据：

3 标准化数据：

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: