使用Photon加速特征工程
原文英文,约600词,阅读约需3分钟。发表于: 。Training a high-quality machine learning model requires careful data and feature preparation. To fully utilize raw data stored as tables in Databricks, running...
Photon Engine现已适用于Databricks Machine Learning Runtime,可加快Spark作业和特征工程工作负载。Photon是一个用C++实现的高性能查询引擎,可以更快地运行Spark SQL和Spark DataFrame。它加速了数据准备和特征工程,平均加速了2倍至4倍的SQL查询。Databricks特征工程库中的点对点连接的新实现,受到客户建议的启发,更具可扩展性和鲁棒性,从Photon Engine中受益。当连接不同大小的特征表时,Photon将点对点连接加速了2.0倍至2.4倍。用户可以在Databricks Machine Learning Runtime集群中选择Photon,以更快地构建机器学习模型。