一种在NASA的毅力号火星探测器上测试的新算法,可能会更好地预测飓风、野火和其他极端天气事件,这些事件影响着全球数百万人。佐治亚理工学院博士生Austin P. Wright是介绍嵌套融合(Nested Fusion)算法的论文的第一作者。这个新算法提升了科学家在火星表面寻找过去生命迹象的能力。这一创新支持了NASA的火星2020任务。

此外,其他领域的科学家也可以使用嵌套融合的方法来处理大量、重叠的数据集。Wright在2024年国际知识发现与数据挖掘会议(KDD 2024)上展示了嵌套融合,并获得了最佳论文奖的亚军。该研究发表在《第30届ACM SIGKDD知识发现和数据挖掘会议论文集》上。“嵌套融合对许多不同领域的研究人员非常有用,不仅仅是NASA的科学家,”Wright说。

“这个方法可视化了复杂的数据集,在分析的初期探索阶段,获得总体视图是很困难的。”嵌套融合结合了不同分辨率的数据集,产生一个单一的高分辨率视觉分布。使用这种方法,NASA科学家可以更容易地同时分析来自各种来源的多个数据集。这可能会加速对火星表面成分的研究,以寻找过去生命的线索。该算法展示了数据科学如何影响传统科学领域,例如化学、生物学和地质学。

此外,Wright正在开发嵌套融合的应用,以建模气候变化模式、动植物生命和地球科学中的其他概念。同样的方法可以结合卫星图像、生物标志物和气候数据中的重叠数据集。“用户已将嵌套融合和类似算法扩展到地球科学背景中,我们收到的反馈非常积极,”在佐治亚理工学院研究机器学习(ML)的Wright说。“交叉关联分析需要很长时间,并且不会在研究的初期阶段完成,这时图案出现并形成新的假设。

嵌套融合使人们能够更早地发现这些图案。”Wright是PIXLISE数据科学和ML团队的负责人,NASA JPL科学家使用该软件研究毅力号火星探测器的数据。毅力号使用其行星X射线岩石化学仪器(PIXL)收集火星表面矿物成分的数据。PIXL的两个主要工具是X射线荧光(XRF)光谱仪和多上下文相机(MCC)。当PIXL扫描目标区域时,从这些组件中创建两个对齐的数据集。XRF收集样品的微观元素组成。

MCC生成样品图像,收集尺寸和形状等视觉和物理细节。每个扫描点大约对应于100个MCC成像像素的单一XRF光谱。每种工具的独特分辨率使得映射重叠数据层具有挑战性。然而,Wright及其合作者设计了嵌套融合来克服这一障碍。除了推进数据科学,嵌套融合还改进了NASA科学家的工作流程。使用该方法,单个科学家可以在几小时内对样品的矿物成分做出初步估计。

在嵌套融合之前,同样的任务需要多个仪器专家团队协作数天。“我从这项工作中学到的最大教训之一是,将我的ML和数据科学问题植根于合作伙伴的实际、具体用例中是非常有价值的,”Wright说。“我从合作伙伴那里学习,了解他们在数据分析中认为重要的部分和他们面临的挑战。通过了解这些问题,我们可以发现新的方法来形式化和框定数据科学中的问题。”嵌套融合在应用数据科学轨道上获得了最佳论文亚军。

在会议的研究轨道、研讨会和教程中展示了数百篇其他论文。Wright的导师Scott Davidoff和Polo Chau是嵌套融合论文的共同作者。Davidoff是NASA喷气推进实验室的首席研究科学家。Chau是佐治亚理工学院计算科学与工程(CSE)学院的教授。“我非常高兴这项工作获得了最佳论文亚军奖,”Wright说。

“这类应用工作有时很难找到合适的学术归宿,所以找到欣赏这项工作的社区是非常令人鼓舞的。”