在当今数字化时代，自动化任务的需求日益增长，尤其是在网页、软件应用和操作系统中。传统的基于文本的Agent虽然在某些场景下表现出色，但由于其依赖于平台特定的API，往往需要频繁更新，限制了其扩展性。而基于视觉的Agent，尤其是那些利用多模态大语言模型（MLLMs）的Agent，通过直接与图形用户界面（GUI）交互，展现出更强的适应性。然而，这些视觉Agent在处理高分辨率、视觉复杂的数字环境时，面临着巨大的挑战。来自浙大的研究团队提出了Iris，一种创新的视觉Agent，通过信息敏感裁剪（ISC：Information-Sensitive Cropping）和自我优化双学习（SRDL：Self-Refining Dual Learning）两大核心技术，成功解决了这些难题，显著提升了GUI理解和任务执行的效率与准确性。

论文地址：Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

1. 引言

随着数字Agent在网页、软件应用和操作系统中的广泛应用，自动化任务的需求日益增加。传统的基于文本的Agent依赖于大语言模型（LLMs），但由于平台特定的API和代码片段（如HTTP请求或HTML/XML格式）的差异，这些Agent需要频繁更新，限制了其扩展性。相比之下，基于视觉的Agent通过多模态大语言模型（MLLMs）直接与GUI交互，展现出更强的适应性。然而，这些Agent在处理高分辨率、视觉复杂的数字环境时，面临着巨大的挑战。

添加图片注释，不超过 140 字（可选）

Iris通过两大创新技术解决了这些挑战：信息敏感裁剪（ISC）和自我优化双学习（SRDL）。ISC通过边缘检测算法动态识别并优先处理视觉密集区域，从而在信息密度高的区域分配更多计算资源。SRDL则通过双学习循环，利用描述（referring）和定位（grounding）任务的互补性，提升Agent处理复杂任务的能力，且无需额外的标注数据。实验结果表明，Iris在多个基准测试中达到了最先进的性能，仅使用850K GUI标注数据，便超越了使用10倍训练数据的方法。

2. 相关工作

2.1 视觉数字Agent

近年来，视觉数字Agent在多平台能力上取得了显著进展。例如，CogAgent、SeeClick和UGround等系统能够在PC网页和Android设备上进行导航。SeeClick引入了仅依赖截图的GUI交互方法，通过专门的GUI定位预训练，消除了对HTML等结构化数据的需求，并在移动、桌面和网页界面上表现出色。这些工作确立了GUI定位作为视觉Agent的基本能力，并展示了其与下游自动化任务性能的直接相关性。

2.2 高分辨率MLLMs

处理高分辨率图像是多模态大语言模型（MLLMs）的重要进展。AnyRes等方法通过将图像分割为336x336或448x448的网格来处理高分辨率图像，但这可能会影响跨网格边界的效率和上下文理解。Qwen2-VL等架构通过2D-ROPE和多模态位置嵌入等创新，支持动态分辨率处理，允许灵活处理不同大小的图像，同时保持位置信息。然而，这些方法在处理信息分布不均的GUI图像时，存在效率问题。相比之下，Iris通过动态调整计算资源分配，实现了对复杂GUI界面的高效处理。

3. 方法

本节详细介绍Iris的设计与实现，包括信息敏感裁剪（ISC）和自我优化双学习（SRDL）两大核心技术。Iris通过这两个创新技术，显著提升了GUI理解和任务执行的效率与准确性。

3.1 初步概念与任务公式化

Iris的核心任务是通过两个互补的任务来增强GUI理解：描述（referring）和定位（grounding）。每个UI元素由两个关键属性定义：位置和描述。

位置：UI元素的位置由其边界框坐标表示，即元素的左上角和右下角坐标。
描述：UI元素的描述包括其视觉外观（如元素类型、显示的文本）和功能角色（如按钮、输入框等）。

基于这两个属性，Iris定义了两个核心任务：

描述任务（Referring）：给定屏幕图像和位置，生成该位置UI元素的详细描述。
定位任务（Grounding）：给定屏幕图像和描述，定位对应UI元素的位置。

这两个任务是Iris能够有效理解和交互GUI环境的核心。通过描述和定位的互补性，Iris能够在复杂的GUI界面中准确地识别和操作UI元素。

3.2 信息敏感裁剪（ISC：Information-Sensitive Cropping）

添加图片注释，不超过 140 字（可选）

ISC的核心目标是基于视觉信息的分布，动态分割高分辨率屏幕图像为较小的、可变大小的子图像。这种自适应的方法确保每个子图像捕获相对平衡的有意义信息，避免了均匀裁剪策略可能忽略关键细节或浪费计算资源在无关区域的问题。ISC过程分为三个关键步骤：信息检测、自适应裁剪和统一调整大小。

信息检测： ISC首先通过边缘检测算法识别视觉显著区域。边缘检测基于GUI元素通常具有明显边界的观察，这些边界将元素与背景和其他元素区分开来。具体步骤包括：

预处理：将输入图像转换为灰度图像，以聚焦于结构信息。
噪声减少：应用高斯平滑以减少图像噪声，防止纹理和压缩伪影导致的错误边缘检测。
梯度计算：计算水平和垂直方向的强度梯度，确定每个像素的梯度幅值和方向。
边缘形成：应用非极大值抑制和滞后阈值处理，生成二进制边缘图，突出显示显著的UI边界。

自适应裁剪：在获得边缘检测矩阵后，ISC采用多尺度滑动窗口方法识别和提取信息丰富的区域。具体步骤如下：

初始化：从最小窗口大小开始，逐步扩展窗口大小。
滑动窗口：在每个尺度上，以一定步长滑动窗口。
密度计算：计算当前窗口的边缘密度，即窗口中边缘像素的比例。
区域提取：提取边缘密度超过阈值的区域，并将这些区域标记为已处理，以避免重叠。

添加图片注释，不超过 140 字（可选）

统一调整大小：裁剪后的子图像大小不一，但每个子图像都包含平衡的视觉信息。为了确保每个视觉标记传达有意义的信息，ISC将每个子图像调整为固定大小（如224x224），使用双线性插值进行下采样，然后将这些子图像输入MLLM进行进一步处理。

计算效率： ISC的计算复杂度为线性，确保了整个ISC过程的高效性。实验表明，ISC在CPU上通常耗时不到0.1秒，且可以与GPU操作并行运行，不会引入额外的延迟。

总结：通过ISC机制，Iris能够高效处理高分辨率屏幕图像，专注于信息密集区域，减少对无关区域的注意力，从而在速度和准确性上显著提升。

3.3 自我优化双学习（SRDL）

SRDL通过双学习循环，利用描述和定位任务的互补性，提升Agent处理复杂任务的能力。SRDL的核心思想是通过描述生成和元素定位的互补性，实现自我优化。

添加图片注释，不超过 140 字（可选）

双学习循环： SRDL的双学习循环包括以下步骤：

枚举UI元素：Iris首先枚举所有UI元素，生成每个元素的基本描述。
定位：基于生成的描述，Iris尝试定位每个UI元素的位置。
重新描述：根据定位的位置，Iris重新生成UI元素的描述。
收敛判断：通过比较连续迭代中的定位位置，判断是否收敛。如果定位位置稳定，则认为输出收敛，并将生成的样本加入训练集。

添加图片注释，不超过 140 字（可选）

视觉困难案例挖掘：视觉困难案例通过分析ISC过程中的信息矩阵来识别。ISC使用谱熵来量化视觉信息的密度和复杂性。谱熵通过傅里叶变换分析信息矩阵的频率成分，计算每个频率成分的能量分布。高熵值表示视觉信息密集且复杂，通常对应更具挑战性的任务。

具体步骤包括：

傅里叶变换：计算信息矩阵的二维离散傅里叶变换，得到频谱。
谱能量计算：计算每个频率成分的谱能量。
谱熵计算：定义谱熵为频率成分能量的归一化分布的熵值。

通过谱熵，Iris能够识别出视觉复杂度高的图像作为困难案例，优先进行额外训练，提升模型在复杂UI组件上的表现。

功能困难案例挖掘：功能困难案例基于模型的历史表现进行识别。Iris关注那些在功能描述上表现不佳的样本，通过描述增强策略生成新的类似描述，创建合成功能困难案例。

具体步骤包括：

识别困难描述：识别模型在功能描述上表现不佳的样本集合。
描述增强：使用语言模型（如GPT）为每个困难描述生成多个变体。
双学习循环：将这些增强的描述输入双学习循环，生成合成功能困难案例，逐步提升模型对复杂功能概念的理解。

通过双学习循环和针对性困难案例挖掘，Iris能够自主发现并学习困难样本，提升其在处理复杂GUI环境中的鲁棒性和适应性。SRDL不仅增强了模型在视觉和功能上的理解能力，还减少了对标注数据的依赖，显著提升了模型的泛化能力。

4. 实验

4.1 训练细节

Iris的训练过程与SeeClick相同，初始化自Qwen-VL，使用850K GUI特定数据和150K通用视觉语言指令。Iris在初始训练阶段实施ISC，并在后续阶段进行SRDL训练，生成约3M自标注GUI样本。

4.2 GUI定位基准测试

Iris在ScreenSpot和GroundUI基准测试中表现出色，平均准确率分别达到74.6%和71.3%，显著优于现有模型。

添加图片注释，不超过 140 字（可选）

4.3 Agent基准测试

在Mind2Web和AITW基准测试中，Iris在11/12类别中表现最佳，特别是在需要精确定位和多步交互的复杂场景中表现出色。

添加图片注释，不超过 140 字（可选）

4.4 消融研究

ISC和SRDL的互补性使Iris在效率和准确性上达到最佳平衡。ISC在低视觉复杂度下使用较少标记，而在高复杂度下动态分配更多标记，平衡了准确性和效率。SRDL通过视觉和功能困难案例挖掘，显著提升了模型鲁棒性。

添加图片注释，不超过 140 字（可选）

5. 结论

Iris通过信息敏感裁剪（ISC）和自我优化双学习（SRDL）两大创新技术，显著提升了GUI理解能力。ISC通过动态调整计算资源分配，实现了对高分辨率界面的高效处理，SRDL通过自主发现和学习困难案例，提升了模型鲁棒性。实验结果表明，Iris在多个基准测试中达到了最先进的性能，为GUI数字Agent设定了新标准。

附录

6. ISC实现细节

ISC通过边缘检测识别GUI界面中的信息密集区域，采用自适应直方图均衡化增强局部对比度，防止逻辑界面元素的分裂。

7. ISC效率分析

ISC的计算复杂度为O(W×H)，显著降低了高分辨率GUI界面的处理时间，实现了约300%的速度提升。

8. Iris训练细节

Iris的训练过程包括初始训练和SRDL阶段，使用AdamW优化器和余弦退火调度器。

9. GUI定位基准测试细节

ScreenSpot和GroundUI基准测试涵盖了多种平台和界面类型，评估模型在不同环境下的GUI理解能力。

10. Agent基准测试细节

AITW和Mind2Web基准测试评估了Iris在移动操作系统和网页导航中的实际应用能力。

通过详细的设计与实验，Iris展示了其在GUI理解和任务执行中的卓越性能，为未来的数字Agent发展提供了新的方向。

网站首页 > 技术文章正文

Iris:打破GUI复杂性，自适应聚焦与自我优化的视觉Agent

1. 引言

2. 相关工作

2.1 视觉数字Agent

2.2 高分辨率MLLMs

3. 方法

3.1 初步概念与任务公式化

3.2 信息敏感裁剪（ISC：Information-Sensitive Cropping）

3.3 自我优化双学习（SRDL）

4. 实验

4.1 训练细节

4.2 GUI定位基准测试

4.3 Agent基准测试

4.4 消融研究

5. 结论

附录

6. ISC实现细节

7. ISC效率分析

8. Iris训练细节

9. GUI定位基准测试细节

10. Agent基准测试细节

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

Iris:打破GUI复杂性，自适应聚焦与自我优化的视觉Agent

1. 引言

2. 相关工作

2.1 视觉数字Agent

2.2 高分辨率MLLMs

3. 方法

3.1 初步概念与任务公式化

3.2 信息敏感裁剪（ISC：Information-Sensitive Cropping）

3.3 自我优化双学习（SRDL）

4. 实验

4.1 训练细节

4.2 GUI定位基准测试

4.3 Agent基准测试

4.4 消融研究

5. 结论

附录

6. ISC实现细节

7. ISC效率分析

8. Iris训练细节

9. GUI定位基准测试细节

10. Agent基准测试细节

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: