计算机系统应用教程网站

网站首页 > 技术文章 正文

08-人人都懂的人工智能:高维的one-hot编码

btikc 2024-10-12 13:22:16 技术文章 3 ℃ 0 评论

经常学习人工智能的朋友,应该看过这个词:高维的one-hot编码。比如,将高维的one-hot编码压缩为低维稠密向量。

是不是不够直观容易理解?接下来我们用生活中的例子进行解释,帮助你逐渐入门人工智能。

通俗解释:

想象你是一个大型图书馆的管理员,负责组织和分类所有的书籍。

1、基本情况

  • 你的图书馆里有很多本书;
  • 你有一个非常详细的分类系统,包含1000个不同的类别;
  • 这些类别涵盖了从"古代历史"到"量子物理",从"儿童绘本"到"后现代主义文学"的各种主题。

2、One-hot编码的类比:想象你为每本书创建了一个特殊的"身份标签",这个标签由1000个小格子组成:

  • 每个格子代表一个类别。
  • 对于任何一本书,只有一个格子会被标记(比如涂黑或打勾),其他999个格子都保持空白。

我们来看两个具体的例子:

  • 如果你有一本关于"量子物理"的书: 在"量子物理"对应的格子上打勾。 其他999个格子都保持空白。
  • 另外一本"儿童绘本": 只在"儿童绘本"的格子上打勾。 其他999个格子仍然空白。

所以你理解为什么叫“one-hot”了吧:

  • "One" 是指每个标签只有一个格子被标记。
  • "Hot" 在这里可以理解为"激活"或"选中"。

3、one-hot的优缺点

优点:

  • 非常清晰:一眼就能看出每本书属于哪个类别。
  • 没有歧义:类别之间没有隐含的关系或顺序。

缺点:

  • 非常冗长:即使是一本儿童绘本,你也需要一个有1000个格子的标签。
  • 大多数信息是"空白的":每个标签中,999个格子都是空的。

从缺点可以看出这些标签太大了,占用了太多空间;同时难以看出不同类别之间的关系(例如,"量子物理"和"理论物理"可能很相关)。

4、新的想法(压缩为低维稠密向量): 你决定创造一个新的、更紧凑的标签系统:

a) 缩小标签:

  • 不再使用1000个格子,而是只用10个格子。

b) 使用数值而不是勾选:

  • 每个格子不再是空白或打勾,而是填入一个0到1之间的数字。

c) 捕捉多个特征:

  • 每个格子现在代表一个更广泛的特征,而不是具体的类别。 例如:学术性、实用性、娱乐性、历史价值等。

接下来我们看下用新的标签系统后的情况:

原来的"量子物理"书: [0, 0, 0, ..., 1, ..., 0] (1000个数字,只有一个1)

  • 新系统中的"量子物理"书可能是: [0.9, 0.7, 0.1, 0.3, 0.8, 0.2, 0.0, 0.5, 0.6, 0.4] 这可能表示:很学术(0.9)、相当实用(0.7)、不太娱乐(0.1)、有一定历史价值(0.3),等等。
  • 5、新方法的优点

    • 节省空间:从1000个维度减少到只有10个。
    • 富含信息:每个维度和数字都包含有意义的信息。
    • 可以表示关系:相似的书会有相似的维度和数字(向量)组合。

    结论:

    将高维 one-hot 编码压缩为低维稠密向量,就像是将一个巨大但稀疏的标签系统转换成一个小巧但信息丰富的系统。

    这不仅节省了空间,还能捕捉到类别之间的潜在关系,使得后续的分析和处理更加高效。

    Tags:

    本文暂时没有评论,来添加一个吧(●'◡'●)

    欢迎 发表评论:

    最近发表
    标签列表