数据和人工智能公司Databricks发布了开源大型语言模型Dolly和内部众包数据集databricks-dolly-15k,以进行微调。现在,他们宣布了第一个正式提交到Hugging Face代码库的功能,允许用户轻松地从Apache Spark™ dataframe创建Hugging Face数据集。这个新功能可以让用户更加高效地加载和转换数据,从而更容易地将Spark dataframe映射到Hugging Face数据集中。这个改进将处理16GB数据集的时间从22分钟缩短到12分钟,同时保留了Hugging Face提供的管道集成。Databricks还计划通过Spark添加流支持,以使数据集加载更快。他们还在努力提供最好的工具,以成功地训练、调整和部署模型。
完成下面两步后,将自动完成登录并继续当前操作。