计算机系统应用教程网站

网站首页 > 技术文章 正文

机器学习运用,对火山灰进行分类,具体的操作方法是怎样的?

btikc 2024-10-01 08:41:51 技术文章 12 ℃ 0 评论

文丨吐不满的痰娱

编辑丨吐不满的痰娱

前言

火山灰提供的信息有助于了解危机初期火山活动的演变以及可能向不同喷发方式的转变。火山灰由火山系统内各种来源的颗粒组成,对火山灰的分析可以表明驱动喷发活动的过程。然而,将火山灰颗粒分为不同类型并不是一件简单的事情。颗粒分类的诊断观察结果并不标准化,并且因样本而异。

在这里,我们探索使用机器学习来提高分类准确性和可重复性。我们使用精选的火山灰颗粒数据库来优化和训练两个基于 ML 的模型:使用测量的颗粒物理属性的极端梯度提升及其预测结果由SHAP方法解释,并由 Vision Transformer对双目、多焦点、粒子图像进行分类。

我们发现 XGBoost 的总体分类准确率为 0.77 、颜色特定特征和纹理在粒子类型之间最具判别性。使用粒子图像和 ViT 进行分类更准确,性能从圆顶爆炸样本的 0.85 到潜水和亚普林尼式事件的 0.95 不等。尽管分类算法取得了成功,但训练数据集在粒子数量、喷发方式范围和火山方面受到限制。

火山学及其火山灰的难点

火山学的一个核心挑战是预测不稳定火山在特定时间点的可能演变。在火山不稳定期间,小规模的爆发或蒸汽事件可能先于大规模爆发或蒸汽事件发生,或者火山可能保持在低活动水平并返回休眠状态。此外,许多火山喷发由多个阶段组成,随着时间的推移,爆发式和溢流式喷发方式会发生变化或交替。

为了评估火山是否会发展为一种或另一种活动类型,人们使用一系列地球物理和地球化学工具来监测和解释火山下方发生的过程。然而,解释可能并不简单,而且可用数据有限,因此诊断通常非常不确定。另一个可以对火山状态提供重要见解的工具是研究火山灰。

火山灰可分为颗粒类型也称为成分,它们指示驱动活动的过程。例如,幼年颗粒与浅层上升岩浆的碎裂有关,它们的识别与其他监测信号一起,可能警告随后的岩浆喷发。例如,对 1980 年美国圣海伦斯火山和 1991 年日本云仙火山早期小规模潜水喷发的灰烬的后验研究发现,在这些前高潮沉积物中发现了少量幼年颗粒。

因此如果及时发现这些颗粒,可能会改变对随后爆炸潜力的认识。在其他情况下,早期爆发中幼年成分分类模糊,导致火山危机管理非常复杂,例如 1975-1977 年苏弗里耶尔瓜德罗普岛危机。此外,追踪火山灰中不同成分的比例、形状和结晶度,可以提供有关爆发风格可能转变的线索,从而更好地减轻相关危害。

将颗粒分类为不同类型通常是通过使用各种技术在单个颗粒水平上收集定性或定量数据来完成的。这包括使用双目显微镜观察光泽、颜色和形状,以及颗粒的表面和形状。包括内部微观结构在内的更详细观察通常使用扫描电子显微镜进行,而化学分析则是用电子探针、质谱仪和折射率测量等进行的。

这些特征可能因样本而异,取决于喷发方式和火山。尽管 Ross 等人已经提出了一种研究幼年火山碎屑的有用方法。然而,区分不同颗粒类型的具体诊断特征仍然不清楚,并且难以在广泛的样本中一致应用。

机器学习的相关介绍及其应用

在各个领域中解决此类分类挑战的一种常用方法是利用机器学习。基于 ML 的模型可以在各种情况下对复杂图像进行分类。基于 ML 的模型能够学习模式来对对象进行分类,并将其用于未来数据集的分类,例如蘑菇或叶子疾病。与我们最密切相关的研究是 Shoji et al。

其中作者成功地使用神经网络对来自各种喷发活动类型的样本中的火山灰颗粒形状进行分类。在这项工作中,我们使用 VolcAshDB 整理的数据集,目标是确定区分颗粒类型的最重要特征,以及获得尽可能准确的颗粒分类器。随着更多数据的出现和更好算法的开发,这项研究的结果应该朝着对灰烬颗粒进行通用和无偏分类迈出一步。

我们使用了开放式数据库 VolcAshDB 中的数据,该数据库包含 6,300 多个火山灰颗粒的图像和测量值。这些是使用双目显微镜获得的,并经过处理以获得多焦点高分辨率图像。这些图像已使用二分法键进行分类,使用了一些关键的观察特征,如一些研究者所报告的。

该数据库包含来自 8 座火山和 11 次喷发的 12 个样本的火山灰颗粒,这些样本来自各种岩浆成分和喷发活动类型。其中包括1976 年和 1977 年苏弗里耶尔火山的蒸汽喷发以及 1991 年 4 月皮纳图博火山和 2014 年御岳火山的早期活动。

2016 年 12 月喷发期开始后以及 2018 年 4 月圆顶挤压后内华达斯德奇廉火山群的圆顶喷发,2013 年 7 月和 11 月默拉皮火山的喷发,2021 年 10 月 加那利群岛的玄武岩熔岩喷泉和2014 年克卢德火山普林尼式和亚普林尼式喷发的不同地点的两个样本。以及 1980 年圣海伦斯火山 (美国) 高潮普林尼式喷发的样本。

除了火山灰图像外VolcAshDB 还包括每个火山灰颗粒的 33 个特征值,这些特征与形状、纹理和颜色有关,一个标签,标明颗粒的类型以及每个颗粒的元数据,例如样品粒度分数、用于图像采集的放大倍数等。数据库中的形状特征已在先前的研究中使用。

包括对颗粒尺度空腔敏感的特征、基于周长的不规则性和形状。VolcAshDB 中的纹理特征是通过基于所谓的灰度共生矩阵计算多个粒子区域灰度像素强度分布获得的。从 GLCM 中,我们获得了指示更均匀纹理的特征,以及指示更复杂或异质纹理的特征。

每个粒子的颜色特征取自红-绿-蓝和色相-饱和度-值颜色空间中六个通道的直方图分布的平均值、众数和标准差的测量值。有关每个特征的计算和参考文献的更多详细信息,都会在后续进行相应的整理。

对相应的内容进行数据整理

数据集由从每个粒子和粒子类型测量的 33 个特征组成。数据集由大约 6300 个粒子组成,分为训练集以优化和拟合模型以及测试集,在模型的学习过程中未使用。原始特征的分布是异构的,并使用 Scikit-learn 的 StandardScaler 函数进行了标准化,这通常是为了简化 ML 模型的收敛。

标准缩放器重新分配每个特征的值,平均值为 0,第一个标准差为 1 和 -1。测试集中的特征也根据训练集中拟合的缩放器进行了标准化,以避免数据泄露。在目视确认源图像没有错误后,将保留任何异常值。保留高度相关的变量,以便在特征置换步骤中估计它们对分类的重要性。

高度相关的变量可能导致回归模型中的多重共线性问题,但这些问题在基于树的模型中尚未被报道过。VolcAshDB 数据集包含的蚀变物质比幼年和岩屑颗粒类型多,游离晶体相对稀少。颗粒类型分布如此不均匀可能会导致数据集不平衡的问题。我们通过使用 SMOTE 包对较少的颗粒类型进行过采样来解决此问题。

该包使用 K 最近邻算法生成合成数据。强烈建议执行此步骤,以允许模型学习对较少的类别进行分类。超参数是控制模型学习过程的用户定义设置。在我们的研究中,我们探索了各种模型,包括决策树、K-最近邻、随机森林、梯度等提升分类器和对极端梯度进行提升。

为了更有效地找到最佳超参数值,我们通过 Scikit-optimize 包中的函数使用了贝叶斯优化。此函数根据之前的迭代搜索最佳超参数,使计算速度比遍历整个搜索空间更快、更省力。为了评估不同超参数值的效果,我们从训练集上的 10 倍交叉验证中获得了分数。

此方法将数据迭代地分为训练和测试折叠,建议使用以避免过度拟合。在测试模型上使用最佳超参数,XGBoost 获得了最高的交叉验证分数,F1 分数为 0.9,紧随其后的是 KNN 和 GBC,F1 分数为 0.88。

使用来自增强训练集的10,000 张图像对 ViT 基础模型进行微调,并使用测试集进行评估。我们对整个测试集以及粒子类型都获得了准确的分类:包括蚀变材料、幼体、游离晶体和岩屑。超过 85% 的真正例在高置信度分数下预测, 这表明 ViT 分类自信且准确。

结语

对火山灰中不同颗粒的分类通常很困难,因为诊断标准并不标准化,也不可靠,而且系统地识别特定颗粒类型并不简单。我们尝试通过探索使用最先进的机器学习模型来识别每种颗粒类型最具判别性的特征并评估其对颗粒进行分类的能力,以缓解这种情况。

所识别的特征为识别幼年颗粒和岩屑颗粒提供了新的见解,以实现标准化分类。图像分类器的表现非常准确,尽管不同喷发和类型的差异表明其推广到新样本的能力仍不清楚。将来自更多种类的火山喷发和火山的大量粒子与 ML 模型相结合,可以对火山灰样本进行无偏比较,作为火山监测研究的工具。

文章描述过程、图片都来源于网络,此文章旨在倡导社会正能量,无低俗等不良引导。如涉及版权或者人物侵权问题,请及时联系我们,我们将第一时间删除内容!如有事件存疑部分,联系后即刻删除或作出更改。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表