InfoQ ·

IBM和NASA训练了首个基础模型用于日球物理学

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

Surya是IBM和NASA联合开发的366M参数模型，专用于预测太阳活动，如耀斑和太阳风。该模型基于九年的高分辨率图像训练，超越了以往的特定任务模型，表现优于现有专用模型。Surya采用2D变换器架构，结合频域过滤和长短期注意力机制，有效捕捉太阳动态。

🎯

🔎

Surya模型的创新之处在于其通用性，超越了以往狭窄任务特定模型的局限。通过九年的高分辨率图像训练，Surya能够捕捉太阳活动的细微变化和大规模事件，展现出更强的预测能力。这种通用性使其在处理稀有事件时，能够更有效地利用数据，减少过拟合的风险。

Surya采用了2D变换器架构，结合频域过滤和长短期注意力机制。这种设计不仅能有效抑制噪声，还能增强数据中的重要特征，捕捉局部依赖和长程相关性。这种技术架构的独特性使得Surya在理解太阳动态方面具备了更高的精度和灵活性。

Surya的开发标志着日光物理学研究方法的转变，可能会推动更多通用模型的应用。这种模型不仅能提高预测的准确性，还能为研究人员提供更丰富的物理意识表示，帮助他们更好地理解太阳活动对地球和太空环境的影响。

❓

Surya模型主要用于预测太阳活动，包括耀斑和太阳风。

Surya模型基于九年的高分辨率图像训练，这些图像来自NASA的太阳动态观测卫星。

Surya标志着从狭窄任务特定模型的转变，代表了更通用的日光物理学研究方法。

Surya采用2D变换器架构，结合频域过滤和长短期注意力机制。

尽管不是任务特定的，Surya的表现超越了现有的专用模型，如U-Net和AlexNet。

Surya模型可以在Hugging Face和GitHub上获取。

🏷️