Databricks ❤️ Hugging Face

Databricks ❤️ Hugging Face

💡 原文英文,约900词,阅读约需3分钟。
📝

内容提要

数据和人工智能公司Databricks发布了开源大型语言模型Dolly和内部众包数据集databricks-dolly-15k,以进行微调。现在,他们宣布了第一个正式提交到Hugging Face代码库的功能,允许用户轻松地从Apache Spark™ dataframe创建Hugging Face数据集。这个新功能可以让用户更加高效地加载和转换数据,从而更容易地将Spark dataframe映射到Hugging Face数据集中。这个改进将处理16GB数据集的时间从22分钟缩短到12分钟,同时保留了Hugging Face提供的管道集成。Databricks还计划通过Spark添加流支持,以使数据集加载更快。他们还在努力提供最好的工具,以成功地训练、调整和部署模型。

🎯

关键要点

  • Databricks发布了开源大型语言模型Dolly和内部众包数据集databricks-dolly-15k。
  • 新功能允许用户轻松地从Apache Spark™ dataframe创建Hugging Face数据集。
  • 该功能将处理16GB数据集的时间从22分钟缩短到12分钟。
  • 用户可以通过调用新的'from_spark'函数简化数据加载过程。
  • 集成Spark与Hugging Face提供了成本效益和性能优势。
  • Databricks计划通过Spark添加流支持,以加快数据集加载速度。
  • 公司致力于为用户提供最佳工具,以成功训练、调整和部署模型。
  • Databricks还在其他开源项目中发布了改进,包括对transformers库的支持。
  • 将探索大型语言模型(LLMs)的构建、训练和部署,鼓励用户参加Data + AI Summit。
➡️

继续阅读