特征提取 作为机器学习中一个前处理步骤,在降维、去除不相关和冗余的数据,增能够增加机器学习效率和效果,是大规模机器学习中必不可少的流程。需要注意的是特征提取与特征选择有很大的不同:两者都是数据降维的手段,前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征;后者是将这些特征应用到机器学习中。
Demo:对字典特征抽取
对文本等数据进行特征值化, 让计算机更好地理解数据。对字典数据进行特征值化,主要是对类别特征进行One-hot编码。
API 接口 : 字典 Dict
sklearn.feature_extraction.DictVectorizer
1. DictVectorizer.fit_transform(X)
x:字典或者包含字典的迭代器
返回值:返回sparse矩阵(稀疏矩阵)
2. DictVectorizer.inverse_transform(X)
x:array数组或者sparse矩阵
返回值:转换之前的数据格式
3. DictVectorizer.get_feature_names()
返回特征名称
4. DictVectorizer.transform(x)
按照原先的标准转换
流程
- 实例化类 DictVerctorizer
- 调用 fit_transform方法输入数据并转换
案例
输出结果
本文暂时没有评论,来添加一个吧(●'◡'●)