Databricks ·

使用Photon加速特征工程

💡 原文英文，约600词，阅读约需3分钟。

📝

内容提要

Photon Engine现已适用于Databricks Machine Learning Runtime，可加快Spark作业和特征工程工作负载。Photon是一个用C++实现的高性能查询引擎，可以更快地运行Spark SQL和Spark DataFrame。它加速了数据准备和特征工程，平均加速了2倍至4倍的SQL查询。Databricks特征工程库中的点对点连接的新实现，受到客户建议的启发，更具可扩展性和鲁棒性，从Photon Engine中受益。当连接不同大小的特征表时，Photon将点对点连接加速了2.0倍至2.4倍。用户可以在Databricks Machine Learning Runtime集群中选择Photon，以更快地构建机器学习模型。

🎯

关键要点

Photon现已适用于Databricks Machine Learning Runtime，可加快Spark作业和特征工程工作负载。
Photon是一个用C++实现的高性能查询引擎，可以更快地运行Spark SQL和Spark DataFrame。
Photon加速了数据准备和特征工程，平均加速了2倍至4倍的SQL查询。
Databricks特征工程库中的新实现受客户建议启发，更具可扩展性和鲁棒性，受益于Photon Engine。
当连接不同大小的特征表时，Photon将点对点连接加速了2.0倍至2.4倍。
用户可以在Databricks Machine Learning Runtime集群中选择Photon，以更快地构建机器学习模型。
Photon加速了Spark SQL和Spark DataFrame工作负载，早期客户观察到SQL查询平均加速2倍至4倍。
Databricks特征工程库的新版本点对点连接使用原生Spark而非Tempo库，使其更具可扩展性和鲁棒性。
在连接特征表时，Photon在不同大小的表上表现出不同的加速效果，最大可达2.4倍。
从Databricks Machine Learning Runtime 15.2及以上版本开始，用户可以选择使用Photon加速。

❓

延伸问答

Photon引擎是什么？

Photon引擎是一个高性能查询引擎，用C++实现，能够更快地运行Spark SQL和Spark DataFrame。

使用Photon加速特征工程有什么好处？

使用Photon可以加速Spark SQL和Spark DataFrame工作负载，平均加速2倍至4倍，提高数据准备和特征工程的效率。

如何在Databricks中启用Photon？

用户可以在Databricks Machine Learning Runtime 15.2及以上版本中选择“使用Photon加速”来启用Photon。

Photon在连接特征表时的加速效果如何？

在连接不同大小的特征表时，Photon的加速效果从2.0倍到2.4倍不等，具体取决于表的大小。

Databricks特征工程库的新实现有什么改进？

新实现使用原生Spark而非Tempo库，使其更具可扩展性和鲁棒性，并从Photon引擎中受益。

Photon如何影响机器学习模型的构建？

Photon的查询性能和Databricks ML Runtime的基础设施使得构建机器学习模型更快更容易。

🏷️