计算机系统应用教程网站

网站首页 > 技术文章 正文

Java修炼终极指南:103. 通过 Vector API 求和两个数组

btikc 2024-10-17 08:42:48 技术文章 13 ℃ 0 评论


通过 Vector API 求和两个数组是我们前面两个问题中所学知识的完美起点。假设我们有以下 Java 数组:

int[] x = new int[]{1, 2, 3, 4, 5, 6, 7, 8};  
int[] y = new int[]{4, 5, 2, 5, 1, 3, 8, 7};


为了通过 Vector API 计算 z=x+y,我们需要创建两个 Vector 实例,并依赖 add() 操作,即 z=x.add(y)。由于 Java 数组包含整数标量,我们可以使用 IntVector 专业化版本,如下所示:

IntVector xVector = IntVector.fromArray(  
  IntVector.SPECIES_256, x, 0);  
IntVector yVector = IntVector.fromArray(  
  IntVector.SPECIES_256, y, 0);


在 Java 中,一个整数需要 4 个字节,即 32 位。由于 x 和 y 包含 8 个整数,我们需要 8*32=256 位在向量中表示它们。因此,依赖 SPECIES_256 是正确的选择。接下来,我们可以应用 add() 操作,如下所示:

IntVector zVector = xVector.add(yVector);


完成了!现在是 JVM 生成最优指令集(数据并行加速代码)的时候了,它将计算我们的加法。结果将是一个向量,即 [5, 7, 5, 9, 6, 9, 15, 15]。

这是一个简单的情况,但并不完全现实。谁会为了求和两个只有几个元素的数组而使用并行计算能力呢?!在现实世界中,x 和 y 可能有远超过 8 个元素。很可能,x 和 y 有数百万个项目,并涉及多个计算周期。这正是我们可以利用并行计算能力的时候。

但是,现在,让我们假设 x 和 y 如下:

x = {3, 6, 5, 5, 1, 2, 3, 4, 5, 6, 7, 8, 3, 6, 5, 5, 1, 2, 3,  
     4, 5, 6, 7, 8, 3, 6, 5, 5, 1, 2, 3, 4, 3, 4};  
y = {4, 5, 2, 5, 1, 3, 8, 7, 1, 6, 2, 3, 1, 2, 3, 4, 5, 6, 7,  
     8, 3, 6, 5, 5, 1, 2, 3, 4, 5, 6, 7, 8, 2, 8};


如果我们应用之前的代码(基于 SPECIES_256),结果将是一样的,因为我们的向量只能容纳前 8 个标量,并会忽略其余部分。如果我们应用相同的逻辑但使用 SPECIES_PREFERRED,则结果不可预测,因为向量的形状特定于当前平台。然而,我们可以直观地认为我们将容纳前 n(无论 n 是多少)个标量,但不是全部。

这次,我们需要将数组分块,并使用循环遍历数组并计算 z_chunk = x_chunk + y_chunk。将两个块的求和结果收集到第三个数组(z)中,直到处理完所有块。我们定义一个方法,开始如下:

public static void sum(int x[], int y[], int z[]) {  
  ...


但是,块应该有多大呢?第一个挑战是循环设计。循环应该从 0 开始,但上限和步长是多少呢?通常,上限是 x 的长度,即 34。但是,使用 x.length 并不完全有用,因为它不能保证我们的向量将尽可能多地从数组中容纳标量。我们寻找的是小于或等于 x.length 的 VLENGTH(向量的长度)的最大倍数。在我们的例子中,那是小于 34 的 8 的最大倍数,即 32。这正是 loopBound() 方法返回的内容,因此我们可以编写循环如下:

int upperBound = VS256.loopBound(x.length);         
for (int i = 0; i < upperBound; i += VS256.length()) {  
  ...  
}


循环步长是向量的长度。以下图表预先可视化了代码:


图 5.8 – 以块为单位计算 z = x + y

因此,在第一次迭代中,我们的向量将容纳从索引 0 到 7 的标量。在第二次迭代中,标量来自索引 8 到 15,依此类推。以下是完整代码:

public static void sum(int x[], int y[], int z[]) {  
  int upperBound = VS256.loopBound(x.length);    
  for (int i = 0; i < upperBound; i += VS256.length()) {  
    IntVector xVector = IntVector.fromArray(VS256, x, i);  
    IntVector yVector = IntVector.fromArray(VS256, y, i);  
    IntVector zVector = xVector.add(yVector);  
    zVector.intoArray(z, i);  
  }  
}


intoArray(int[] a, int offset) 将向量中的标量转移到 Java 数组中。这个方法与 intoMemorySegment() 一起有多种变体。

结果数组将是:[7, 11, 7, 10, 2, 5, 11, 11, 6, 12, 9, 11, 4, 8, 8, 9, 6, 8, 10, 12, 8, 12, 12, 13, 4, 8, 8, 9, 6, 8, 10, 12, 0, 0]。检查最后两个项目...它们等于 0。这些项目是 x.length - upperBound = 34 – 32 = 2 的结果。当 VLENGTH(向量的长度)的最大倍数等于 x.length 时,这个差异将为 0,否则我们将有未计算的其余项目。因此,前面的代码仅在 VLENGTH(向量的长度)等于 x.length 的特定情况下按预期工作。

可以通过至少两种方式处理剩余的项目。首先,我们可以依赖 VectorMask,如以下代码所示:

public static void sumMask(int x[], int y[], int z[]) {  
  int upperBound = VS256.loopBound(x.length);  
  int i = 0;  
  for (; i < upperBound; i += VS256.length()) {  
    ... // 同上  
  }  
  if (i <= (x.length - 1)) {             
    VectorMask<Integer> mask  
      = VS256.indexInRange(i, x.length);  
    IntVector zVector = IntVector.fromArray(VS256, x, i, mask)  
          .add(IntVector.fromArray(VS256, y, i, mask));  
    zVector.intoArray(z, i, mask);  
  }  
}


indexInRange() 计算范围 [i, x.length-1] 内的掩码。应用此掩码将产生以下 z 数组:[7, 11, 7, 10, 2, 5, 11, 11, 6, 12, 9, 11, 4, 8, 8, 9, 6, 8, 10, 12, 8, 12, 12, 13, 4, 8, 8, 9, 6, 8, 10, 12, 5, 12]。现在,最后两个项目已按预期计算。

作为一般规则,避免在循环中使用 VectorMask。它们相当昂贵,可能会导致性能显著下降。

处理这些剩余项目的另一种方法是采用传统的 Java 代码片段,如下所示:

public static void sumPlus(int x[], int y[], int z[]) {  
  ... // 同上  
  for (; i < x.length; i++) {  
    z[i] = x[i] + y[i];  
  }  
}


实际上,我们在向量循环之外的 Java 传统循环中累加剩余的项目。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表