💡
原文英文,约600词,阅读约需3分钟。
📝
内容提要
Photon Engine现已适用于Databricks Machine Learning Runtime,可加快Spark作业和特征工程工作负载。Photon是一个用C++实现的高性能查询引擎,可以更快地运行Spark SQL和Spark DataFrame。它加速了数据准备和特征工程,平均加速了2倍至4倍的SQL查询。Databricks特征工程库中的点对点连接的新实现,受到客户建议的启发,更具可扩展性和鲁棒性,从Photon Engine中受益。当连接不同大小的特征表时,Photon将点对点连接加速了2.0倍至2.4倍。用户可以在Databricks Machine Learning Runtime集群中选择Photon,以更快地构建机器学习模型。
🎯
关键要点
- Photon现已适用于Databricks Machine Learning Runtime,可加快Spark作业和特征工程工作负载。
- Photon是一个用C++实现的高性能查询引擎,可以更快地运行Spark SQL和Spark DataFrame。
- Photon加速了数据准备和特征工程,平均加速了2倍至4倍的SQL查询。
- Databricks特征工程库中的新实现受客户建议启发,更具可扩展性和鲁棒性,受益于Photon Engine。
- 当连接不同大小的特征表时,Photon将点对点连接加速了2.0倍至2.4倍。
- 用户可以在Databricks Machine Learning Runtime集群中选择Photon,以更快地构建机器学习模型。
- Photon加速了Spark SQL和Spark DataFrame工作负载,早期客户观察到SQL查询平均加速2倍至4倍。
- Databricks特征工程库的新版本点对点连接使用原生Spark而非Tempo库,使其更具可扩展性和鲁棒性。
- 在连接特征表时,Photon在不同大小的表上表现出不同的加速效果,最大可达2.4倍。
- 从Databricks Machine Learning Runtime 15.2及以上版本开始,用户可以选择使用Photon加速。
➡️