使用Photon加速特征工程

使用Photon加速特征工程

💡 原文英文,约600词,阅读约需3分钟。
📝

内容提要

Photon Engine现已适用于Databricks Machine Learning Runtime,可加快Spark作业和特征工程工作负载。Photon是一个用C++实现的高性能查询引擎,可以更快地运行Spark SQL和Spark DataFrame。它加速了数据准备和特征工程,平均加速了2倍至4倍的SQL查询。Databricks特征工程库中的点对点连接的新实现,受到客户建议的启发,更具可扩展性和鲁棒性,从Photon Engine中受益。当连接不同大小的特征表时,Photon将点对点连接加速了2.0倍至2.4倍。用户可以在Databricks Machine Learning Runtime集群中选择Photon,以更快地构建机器学习模型。

🎯

关键要点

  • Photon现已适用于Databricks Machine Learning Runtime,可加快Spark作业和特征工程工作负载。
  • Photon是一个用C++实现的高性能查询引擎,可以更快地运行Spark SQL和Spark DataFrame。
  • Photon加速了数据准备和特征工程,平均加速了2倍至4倍的SQL查询。
  • Databricks特征工程库中的新实现受客户建议启发,更具可扩展性和鲁棒性,受益于Photon Engine。
  • 当连接不同大小的特征表时,Photon将点对点连接加速了2.0倍至2.4倍。
  • 用户可以在Databricks Machine Learning Runtime集群中选择Photon,以更快地构建机器学习模型。
  • Photon加速了Spark SQL和Spark DataFrame工作负载,早期客户观察到SQL查询平均加速2倍至4倍。
  • Databricks特征工程库的新版本点对点连接使用原生Spark而非Tempo库,使其更具可扩展性和鲁棒性。
  • 在连接特征表时,Photon在不同大小的表上表现出不同的加速效果,最大可达2.4倍。
  • 从Databricks Machine Learning Runtime 15.2及以上版本开始,用户可以选择使用Photon加速。
➡️

继续阅读