计算机系统应用教程网站

网站首页 > 技术文章 正文

Numpy第6练:如何操控数组的维度与形状?干货满满!

btikc 2024-10-12 10:49:54 技术文章 4 ℃ 0 评论

NumPy数组的维度是什么?形状又是什么?如何优雅地操作?好戏开始!

NumPy数组形状(Shape)与维度(Dimension)

形状(Shape):

在NumPy中,数组的形状是指在每个维度上数组的大小。形状是一个由整数构成的元组,这些整数表示了数组在每个维度上的元素数量。例如:

  • 一个一维数组(或称为向量)的形状可能是(n,),其中n是数组中元素的数量。
  • 一个二维数组(或称为矩阵)的形状可能是(m, n),其中m是行数,n是列数。
  • 对于更高维度的数组,形状将包含更多的整数,每个整数代表该维度上的元素数量。

维度(Dimension):

数组的维度(也称为轴)是数组的深度,即数组嵌套的层数。一个标量(单个数字)是0维,一个向量(数字列表)是1维,一个矩阵(列表的列表)是2维,以此类推。

二者的关系:

形状的长度(即元组中元素的数量)直接表示了数组的维度数。例如,形状为(5,)的数组是一维的,形状为(3, 2)的数组是二维的,形状为(2, 2, 3)的数组是三维的。

每个维度的大小告诉我们在该维度上有多少个元素。在形状为(3, 2)的二维数组中,我们可以看到第一个维度(行)有3个元素,第二个维度(列)有2个元素。

上限:

理论上,NumPy数组的维度和形状的大小没有硬性的上限,但实际上它们受到以下因素的限制:

  1. 系统内存:每增加一个维度或增大数组的形状,所需的内存量也会增加。对于非常大或非常高维的数组,可能会消耗大量的内存,甚至超过计算机的物理内存限制。
  2. 处理器能力:即使内存足够,处理高维数据或大规模数组的计算也可能非常耗时,这会对处理器性能提出较高的要求。
  3. 地址空间限制:在某些系统和NumPy版本中,数组的总大小(即所有元素的数量)受到64位地址空间的限制,这意味着理论上数组的最大元素数量受到264264的限制。然而,实际使用中很少接近这个限制,因为在达到这个点之前,其他因素(如内存大小)就已经成为限制了。
  4. 实用性:从实际应用的角度看,处理极高维度的数组在逻辑上可能会变得非常复杂,难以管理和理解。大多数实际应用场景中使用的是一维到四维数组,因为它们已经足够表示大多数数据结构,如向量、矩阵、图像(包括彩色图像和视频序列)等。

因此,尽管NumPy在理论上支持非常高维的数组,但在实践中,由于内存、性能和可管理性的限制,使用的维度通常远低于理论上的限制。有效地管理数据结构通常涉及到在维持数据的组织和可访问性与保持计算和存储效率之间找到平衡。

维度的增加与降低

增加维度:

np.newaxis和np.expand_dims都是NumPy中用于增加数组维度的工具,但它们在使用方式上有所不同。尽管它们都可以达到相似的结果,即在指定位置增加一个新的轴(维度),但是它们的语法和某些用法细节有区别。

方法一:np.newaxis

  • 使用方法:np.newaxis是通过索引操作来使用的。它是一个特殊的索引器,用于增加数组的维度。你可以通过将其插入到数组索引中的适当位置来增加一个新的轴。
  • 场景:当你需要快速地在数组的特定轴上增加一个新的维度时,使用np.newaxis非常方便。它特别适用于数组切片操作中。

方法二:np.expand_dims

  • 使用方法:np.expand_dims是一个函数,它通过接受两个参数——原数组和新轴的位置——来工作。你需要明确指定你想在哪个位置增加新的维度。
  • 场景:当代码的可读性更重要时,使用np.expand_dims可能更合适。它使得增加维度的操作更明确,更易于理解。

二者区别:

  • 语法:np.newaxis通过索引操作使用,而np.expand_dims通过函数调用使用。
  • 可读性:np.expand_dims可能在代码可读性方面更胜一筹,因为它明确指出了维度增加的位置。
  • 功能:尽管它们在实现上有所不同,但np.newaxis和np.expand_dims都可以用于在数组的指定位置增加新的维度。

降低维度:

NumPy提供了多种方式来降低数组的维度。降维操作对于简化数据结构、提高数据处理效率,以及适配特定算法或库的要求非常重要。以下是一些常用的降维方法:

方法一:使用np.squeeze()

np.squeeze()函数用于从数组的形状中删除单维条目,即它会移除形状中所有为1的维度。这对于去除由于先前操作(如np.newaxis或np.expand_dims)引入的额外维度非常有用。

方法二:使用索引和切片

通过索引和切片操作,你可以选择性地访问数组的一部分,从而实现降维。例如,选择多维数组的一个特定行或列,会返回一个低维的数组。

方法三:扁平化方法

ravel与flatten这两种方法都用于将多维数组转换成一维数组。ravel返回的是视图(如果不需要复制),而flatten总是返回一个副本。

在NumPy中,视图(view)和副本(copy)是两种不同的数组对象类型,它们与原数组的数据共享方式存在根本差异。理解视图与副本的区别对于有效地处理数组和避免数据处理中的错误非常重要。

视图(View)

  • 定义:视图是原始数组的一个浅层复制(shallow copy)。它是对原始数据的另一个视角或窗口。视图与原始数组共享相同的数据,意味着如果你修改视图中的数据,原始数组中的对应数据也会被修改,反之亦然。
  • 创建:视图可以通过各种操作创建,如索引、切片操作、使用np.reshape、np.ravel等函数时(在不需要复制的情况下)。
  • 优点:使用视图可以节省内存和提高计算效率,因为不需要复制数据。

副本(Copy)

  • 定义:副本是原始数组的一个深层复制(deep copy)。它创建了原始数据的一个完全独立的副本。副本与原始数组不共享数据,因此修改副本不会影响原始数组,反之亦然。
  • 创建:副本可以通过np.copy函数、np.flatten方法等方式创建。
  • 优点:使用副本可以避免在处理数据时不小心修改到原始数据,从而保证数据的安全性。

形状的变换

在NumPy中,reshape和resize都是用于改变数组形状的方法,但它们在功能、使用方式以及影响原数组的方式上存在着明显的区别。理解这些区别对于有效地使用NumPy进行数据处理非常重要。

reshape方法

reshape方法用于给数组一个新的形状,而不改变其数据。reshape返回的是数组的视图(如果可能),意味着返回的新数组与原数组共享数据。因此,修改新数组的元素也会影响原数组,反之亦然,除非reshape操作需要复制数据来保证连续性,在这种情况下,它将返回一个数据的副本。

优点

  • 不改变原数据:在大多数情况下,reshape不会复制原始数据,因此它是一种非常高效的操作。
  • 灵活性:可以很容易地将数组从一个形状转换为另一个形状,只要新旧形状的总元素数量相同。

缺点

  • 共享数据:因为reshape返回的新数组通常与原数组共享数据,所以在某些情况下可能会不小心修改原数组。

适用场景

  • 当你需要改变数组的形状以用于不同的数学运算或数据分析任务,同时不想复制数据以节省内存时。

resize方法

resize方法改变数组本身的形状。如果新形状的总大小大于原始大小,则会根据需要重复原始数组中的元素来填充新数组。与reshape不同,resize会直接修改原数组(如果调用的是ndarray.resize方法),或者返回一个新的调整大小后的数组(如果使用的是np.resize函数)。

优点

  • 直接修改:对于ndarray.resize方法,可以直接在原地修改数组的形状,无需创建新的数组。
  • 扩展数据:可以扩展数组大小,并自动填充额外的空间。

缺点

  • 数据复制或丢失:扩大数组时,额外的元素是原数组元素的重复;缩小数组时,超出新形状部分的数据会被丢弃。
  • 可能不保留原始数据:特别是在扩展数组时,填充的数据可能会导致原始数据模式的重复,这可能不是你想要的结果。

适用场景

  • 当需要调整数组大小并且愿意接受数据的重复或丢弃时。例如,当你需要将数据适配到固定大小的结构中,而不在乎数据是否被裁剪或重复。

其它方法:

其实如果我们理解了数组维度的变更也就会明白,维度的变更势必会导致形状的变更,而形状的变更则不一定会导致维度的变更,所以上面提及的增加与降低维度的方法,也是一种形状变化的方式,择机而用即可。

题外话:数组的切片

上面有提及Numpy中数组ndarray的切片操作,切片是一项十分常用的操作手段,需要完全熟悉之,这里咱们再用实际地详细地解释一下。

当你执行切片操作 arr[0, :],你正在对arr这个二维数组进行操作,具体的执行逻辑如下:

  1. 定位维度:arr[0, :]中的0代表二维数组的第一个维度(通常指的是行)中的第一个元素(在Python中,索引是从0开始的)。这里的第一个维度0指定了二维数组中的第一行。
  2. 冒号:的含义:冒号:用于指定维度的范围。在这个例子中,它被用在第二个位置(列的位置),没有指定开始和结束的索引,这意味着选择所有的列。简单来说,:代表这个维度(列)的所有元素。
  3. 执行切片操作:根据上述索引和范围,NumPy会选取第一行的所有列。这个操作会返回一个新的数组视图(如果不需要复制数据),该视图是原始arr2d数组的一部分。具体来说,它返回的是原数组第一行的一个一维数组。
  4. 结果:row = arr[0, :]这行代码执行后,row变量将包含一个新的一维数组,这个数组是arr2d中第一行的所有元素。如果arr2d是一个形状为(m, n)的二维数组,则row的形状将是(n,),即包含n个元素的一维数组。

如果要从二维数组中切出第一行的前两列,你可以使用切片操作,指定行索引为0(表示第一行)和列索引范围从0到2(不包括2),来选取前两列。在Python和NumPy中,切片的语法是start:stop,其中start是包含在内的起始索引,而stop是不包含在内的结束索引。

# 假设arr2d是你的二维数组 
row_first_two_columns = arr2d[0, 0:2]

这里的意思是:

  • 0:选取第一行(行索引为0)。
  • 0:2:在列的维度上,选取从第一列(列索引为0)开始到第三列(列索引为2)之前的所有列,也就是第一列和第二列。

执行这个操作后,row_first_two_columns将包含arr2d第一行的前两列元素。如果arr2d的形状是(m, n),则row_first_two_columns的形状将是(2,),因为它包含了两个元素。

本期内容有点长,但却是十分重要的技术,干货满满!希望能帮助到大家!

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表