Databricks ·

Databricks ❤️ Hugging Face

💡 原文英文，约900词，阅读约需3分钟。

📝

内容提要

数据和人工智能公司Databricks发布了开源大型语言模型Dolly和内部众包数据集databricks-dolly-15k，以进行微调。现在，他们宣布了第一个正式提交到Hugging Face代码库的功能，允许用户轻松地从Apache Spark™ dataframe创建Hugging Face数据集。这个新功能可以让用户更加高效地加载和转换数据，从而更容易地将Spark dataframe映射到Hugging Face数据集中。这个改进将处理16GB数据集的时间从22分钟缩短到12分钟，同时保留了Hugging Face提供的管道集成。Databricks还计划通过Spark添加流支持，以使数据集加载更快。他们还在努力提供最好的工具，以成功地训练、调整和部署模型。

🎯

关键要点

Databricks发布了开源大型语言模型Dolly和内部众包数据集databricks-dolly-15k。
新功能允许用户轻松地从Apache Spark™ dataframe创建Hugging Face数据集。
该功能将处理16GB数据集的时间从22分钟缩短到12分钟。
用户可以通过调用新的'from_spark'函数简化数据加载过程。
集成Spark与Hugging Face提供了成本效益和性能优势。
Databricks计划通过Spark添加流支持，以加快数据集加载速度。
公司致力于为用户提供最佳工具，以成功训练、调整和部署模型。
Databricks还在其他开源项目中发布了改进，包括对transformers库的支持。
将探索大型语言模型(LLMs)的构建、训练和部署，鼓励用户参加Data + AI Summit。

🏷️

Databricks ❤️ Hugging Face

内容提要

关键要点

标签

继续阅读