使用Photon加速特征工程

使用Photon加速特征工程

💡 原文英文,约600词,阅读约需3分钟。
📝

内容提要

Photon Engine现已适用于Databricks Machine Learning Runtime,可加快Spark作业和特征工程工作负载。Photon是一个用C++实现的高性能查询引擎,可以更快地运行Spark SQL和Spark DataFrame。它加速了数据准备和特征工程,平均加速了2倍至4倍的SQL查询。Databricks特征工程库中的点对点连接的新实现,受到客户建议的启发,更具可扩展性和鲁棒性,从Photon Engine中受益。当连接不同大小的特征表时,Photon将点对点连接加速了2.0倍至2.4倍。用户可以在Databricks Machine Learning Runtime集群中选择Photon,以更快地构建机器学习模型。

🎯

关键要点

  • Photon现已适用于Databricks Machine Learning Runtime,可加快Spark作业和特征工程工作负载。
  • Photon是一个用C++实现的高性能查询引擎,可以更快地运行Spark SQL和Spark DataFrame。
  • Photon加速了数据准备和特征工程,平均加速了2倍至4倍的SQL查询。
  • Databricks特征工程库中的新实现受客户建议启发,更具可扩展性和鲁棒性,受益于Photon Engine。
  • 当连接不同大小的特征表时,Photon将点对点连接加速了2.0倍至2.4倍。
  • 用户可以在Databricks Machine Learning Runtime集群中选择Photon,以更快地构建机器学习模型。
  • Photon加速了Spark SQL和Spark DataFrame工作负载,早期客户观察到SQL查询平均加速2倍至4倍。
  • Databricks特征工程库的新版本点对点连接使用原生Spark而非Tempo库,使其更具可扩展性和鲁棒性。
  • 在连接特征表时,Photon在不同大小的表上表现出不同的加速效果,最大可达2.4倍。
  • 从Databricks Machine Learning Runtime 15.2及以上版本开始,用户可以选择使用Photon加速。

延伸问答

Photon引擎是什么?

Photon引擎是一个高性能查询引擎,用C++实现,能够更快地运行Spark SQL和Spark DataFrame。

使用Photon加速特征工程有什么好处?

使用Photon可以加速Spark SQL和Spark DataFrame工作负载,平均加速2倍至4倍,提高数据准备和特征工程的效率。

如何在Databricks中启用Photon?

用户可以在Databricks Machine Learning Runtime 15.2及以上版本中选择“使用Photon加速”来启用Photon。

Photon在连接特征表时的加速效果如何?

在连接不同大小的特征表时,Photon的加速效果从2.0倍到2.4倍不等,具体取决于表的大小。

Databricks特征工程库的新实现有什么改进?

新实现使用原生Spark而非Tempo库,使其更具可扩展性和鲁棒性,并从Photon引擎中受益。

Photon如何影响机器学习模型的构建?

Photon的查询性能和Databricks ML Runtime的基础设施使得构建机器学习模型更快更容易。

➡️

继续阅读