计算机系统应用教程网站

网站首页 > 技术文章 正文

机器学习之特征提取

btikc 2024-09-17 13:12:42 技术文章 21 ℃ 0 评论

特征提取 作为机器学习中一个前处理步骤,在降维、去除不相关和冗余的数据,增能够增加机器学习效率和效果,是大规模机器学习中必不可少的流程。需要注意的是特征提取与特征选择有很大的不同:两者都是数据降维的手段,前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征;后者是将这些特征应用到机器学习中。

Demo:对字典特征抽取

  对文本等数据进行特征值化, 让计算机更好地理解数据。对字典数据进行特征值化,主要是对类别特征进行One-hot编码。

API 接口 : 字典 Dict

sklearn.feature_extraction.DictVectorizer

1. DictVectorizer.fit_transform(X)

x:字典或者包含字典的迭代器

返回值:返回sparse矩阵(稀疏矩阵)

2. DictVectorizer.inverse_transform(X)

x:array数组或者sparse矩阵

返回值:转换之前的数据格式

3. DictVectorizer.get_feature_names()

返回特征名称

4. DictVectorizer.transform(x)

按照原先的标准转换

流程

  • 实例化类 DictVerctorizer
  • 调用 fit_transform方法输入数据并转换

案例

输出结果

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表