使用 TensorFlow 展开宇宙
2022 年 12 月 01 日

来自 Roberta Duarte 的客座文章,IAG/USP

天文学是试图回答宇宙最大奥秘的科学。宇宙是如何开始的?它将如何结束?什么是黑洞?什么是星系,它们是如何形成的?生命是宇宙拼图中的一个常见部分吗?有太多问题没有答案。机器学习可以成为回答这些问题并帮助我们揭开宇宙奥秘的关键工具。

天文学是最古老的科学之一。原因很简单:我们只需要抬头看看天空,就开始思考我们所看到的。几个世纪以来,天文学家一直在做这件事。伽利略通过他新发明的望远镜观察天空后,发现了一系列天体。几年后,艾萨克·牛顿利用伽利略的贡献发现了万有引力定律。有了牛顿的结果,我们不仅能够更好地理解太阳如何影响地球和其他行星,还能理解为什么我们被困在地球表面。几个世纪后,埃德温·哈勃发现星系正在远离我们,更远的星系比更近的星系移动得更快。哈勃的发现表明宇宙正在膨胀,并且正在加速。这些只是几个例子,说明研究天空如何能为我们提供一些关于宇宙的答案。

它们都有一个共同点,那就是它们记录从观测中获得的数据。数据可以是恒星的光度、行星的位置,甚至星系的距离。随着技术改进观测,更多数据可用于帮助我们理解我们周围的宇宙。最近,最先进的望远镜詹姆斯·韦伯太空望远镜 (JWST) 被发射升空,用于以红外线研究早期宇宙。预计 JWST 每天传输 57.2 吉字节的数据,其中包含有关早期星系、系外行星和宇宙结构的信息。

虽然这对天文学家来说是个好消息,但也伴随着高昂的成本。高计算成本。在 2020 年,《自然》杂志发表了一篇文章,介绍了大数据以及天文学目前处于大数据时代。 JWST 是这些强大的望远镜每天产生大量数据的例子之一。 维拉·鲁宾天文台 预计每晚收集 20 太字节的数据。 大型阵列 每年收集数 PB 的数据,下一代大型阵列每年将收集数百 PB 的数据。2019 年,发表了几篇天文白皮书,概述了天文学领域在 2020 年代预测的目标和障碍。它们概述了天文学需要发生怎样的变化才能为 2020 年代预期的大量数据做好准备。需要新的方法,因为传统方法无法处理表达式的数量。我们在谈论存储、软件和处理时看到了问题出现。

存储问题可能在云计算中有所解决,例如 GCP,正如 《自然》杂志所指出的。然而,处理没有简单的解决方案。用于处理和分析数据的​​方法需要改变。重要的是要注意,天文学是一门基于发现模式的科学。具有相同 红移(通过测量星光波向更高频率偏移来估计太空中的恒星相对于我们的距离)和类似成分的恒星可以被视为同一星族的候选者。具有相同形态和活动或来自核心的光谱的星系通常显示出存在具有类似行为的黑洞。我们甚至可以通过研究不同 I 型超新星光谱的模式来计算宇宙的膨胀速率。那么,我们拥有什么最好的工具来学习大量数据中的模式呢?机器学习。

机器学习是天文学可以用来解决上述计算问题的一种工具。机器学习技术提供的数据驱动方法可能有助于比传统方法(例如数值模拟或 MCMC——一种从概率分布中采样的统计方法)更快地获得分析和结果。在过去的几年里,我们看到了天文学和机器学习之间相互作用的有趣增长。为了量化,在 2015 年到 2020 年之间,天文学论文中出现的关键词机器学习增加了四倍,而深度学习每年增加了三倍。 更具体地说,机器学习被广泛用于对天体进行分类以及从给定属性预测光谱。如今,我们看到了各种各样的应用,例如发现系外行星、模拟宇宙的宇宙网以及搜索引力波。

由于机器学习提供了一种数据驱动的方法,因此它可以加速该领域的科学研究。一个有趣的例子是围绕黑洞的研究。黑洞在过去的几年里一直是热门话题,事件视界望远镜 (EHT) 取得了惊人的成果和图片。要了解黑洞,我们需要计算工具的帮助。黑洞是时空区域,时空区域非常弯曲,以至于没有任何东西,即使是光,也无法逃逸。当物质被困在其引力场周围时,物质将形成一个称为吸积盘的盘。吸积盘动力学是混乱和湍流的。要了解吸积盘物理学,我们需要模拟复杂的流体方程。

解决这个问题并深入了解黑洞物理学的一种常见方法是使用数值模拟。黑洞周围的环境可以用一组守恒方程来描述——通常是质量守恒、能量守恒和角动量守恒。这组方程可以使用数值和数学方法来求解,这些方法迭代地求解每个时间段的每个参数。结果是一组转储——或帧——其中包含有关每个 (x, y, t) 的密度、压力、速度场和磁场的信息,在二维情况下为 (x, y, t),在三维情况下为 (x, y, z, t)。但是,数值模拟非常耗时。围绕黑洞的简单流体动力学处理可以在 400 个 CPU 内核上运行长达 7 天。

如果你开始增加复杂性,例如电磁方程来理解黑洞周围的磁场以及广义相对论方程来真实地解释那里的时空,那么时间可能会大大增加。由于计算限制,我们正在缓慢地接近黑洞物理学中的一个障碍,在那里,对黑洞进行现实模拟变得越来越困难。

黑洞研究

这就是我和我的导师 Rodrigo Nemmen 开始考虑一种加速黑洞物理学的新方法。换句话说,一种可以加速我们研究这些极端天体所需数值模拟的新方法。从一开始,机器学习似乎就是最具前景的方法。我们有数据可以馈送到机器学习算法中,并且文献中有一些成功案例使用机器学习模拟流体。但从未围绕黑洞。值得一试。我们开始与英伟达巴西的 João Navarro 合作,然后我们开始解决这个问题。我们仔细地选择了一种架构,我们将以这种架构为基础来构建我们自己的方案。由于我们想要一种数据驱动的方法,我们决定使用监督学习,更具体地说,我们决定使用深度学习与卷积神经网络的出色性能相结合。

我们是如何构建它的

所有内容都是使用 TensorFlow 和 Keras 构建的。我们开始使用 TensorFlow 1,因为它是当时可用的版本。当时,Keras 还没有添加到 TensorFlow 中,但有趣的是,在那段时间里,我参加了 2019 年在巴西圣保罗举行的 TensorFlow 路演。正是在那次活动中,我了解到 TensorFlow 和 Keras 在 TensorFlow 2 版中联手创建了强大的框架。我还拍下了发布公告的照片。此外,这是我第一次听说 TensorFlow 2 中实现的策略范围,当时我不知道我今天会使用同一个函数。
我们需要几周时间来处理数据,并了解在将数据馈送到 ConvNet 之前准备数据的最佳方法。数据描述了黑洞周围流体的密度。在我们的案例中,我们从亚馈黑洞中获得了数据,换句话说,就是吸积率低的黑洞。早在 2019 年,我们使用的模拟就是这种类型的最长模拟——使用流体动力学处理的二维剖面。我们经历的过程在 Duarte 等人 2022 年的论文中进行了描述。我们使用二维空间 + 一维时间维度训练了我们的 ConvNet。一个配备两个 GPU(NVIDIA G100 和 NVIDIA P6000)的集群是我们训练神经网络的主要硬件。
经过几个小时的训练,我们的模型就可以模拟黑洞了。首先,我们通过测试模型可以学习多少已学模拟的剩余部分来测试其能力。视频显示了我们称为直接案例的案例的目标和预测:我们将模拟帧作为输入馈送到模型中,然后我们分析模型预测下一步的准确程度。
但我们还想看看模型只通过观察一些模拟可以学习多少物理学。我们测试了模型模拟从未见过系统的能力。在训练过程中,我们从模型中隐藏了一个模拟。训练结束后,我们输入初始条件和一个单帧,以便我们可以测试模型在自行模拟时的表现。结果令人振奋:该模型可以通过仅从其他系统中学习物理学来模拟系统。而且好消息还在继续:与传统方法相比,速度提高了 32000 倍。

仅仅出于好奇,我们测试了从吸积流围绕黑洞具有高度可变性的系统中直接预测。看到模型如何能够跟随吸积流的湍流行为,这是一个非常漂亮的结果。

如果您有兴趣了解更多详细信息和结果,请访问 Duarte 等人 2022

这项工作证明了在天文领域使用深度学习技术加速科学研究的强大功能。所有工作仅使用 TensorFlow 工具完成预处理、训练和预测。多棒啊?

结论

正如我们在本篇文章中所讨论的那样,人工智能已经成为天文学不可或缺的一部分,并且我们预计它将继续发展。我们已经看到天文学在人工智能的帮助下取得了巨大的进步。这是一个拥有大量数据和模式的领域,非常适合使用真实世界数据来构建和测试人工智能工具。总有一天,人工智能将发现和揭示宇宙的奥秘,希望这一天很快到来!

下一篇
Unfolding the Universe using TensorFlow

Roberta Duarte(IAG/USP)撰写的客座文章 天文学是试图回答宇宙最大谜团的科学。宇宙是如何诞生的?它将如何终结?什么是黑洞?什么是星系以及它们是如何形成的?生命是宇宙拼图中常见的组成部分吗?还有许多问题没有答案。机器学习可以成为回答这些问题的关键工具,帮助我们解开...