小红花·文摘

首页
广场
排行榜^🏆
直播
FAQ

数据和人工智能公司Databricks发布了开源大型语言模型Dolly和内部众包数据集databricks-dolly-15k，以进行微调。现在，他们宣布了第一个正式提交到Hugging Face代码库的功能，允许用户轻松地从Apache Spark™ dataframe创建Hugging Face数据集。这个新功能可以让用户更加高效地加载和转换数据，从而更容易地将Spark dataframe映射到Hugging Face数据集中。这个改进将处理16GB数据集的时间从22分钟缩短到12分钟，同时保留了Hugging Face提供的管道集成。Databricks还计划通过Spark添加流支持，以使数据集加载更快。他们还在努力提供最好的工具，以成功地训练、调整和部署模型。