标签

 数据集 

相关的文章:

本列表页包含了关于AI新规发布、基准数据集上线以及图神经网络电网数据集的相关信息。

BriefGPT - AI 论文速递 -

FormulaQA:一个基于公式的数值推理问答数据集

通过使用存在的公式驱动的 FormulaQA 数据集,得出了使用检索增强的 LLMs 模型结合外部公式数据库时对现有模型具有重要改进潜力的实证结果。

本文介绍了TheoremQA数据集,用于评估AI模型解决科学问题的能力。研究发现GPT-4在Program-of-Thoughts Prompting的帮助下表现出色,超过其他开源模型,达到51%。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

CHILI:用于推进图机器学习的化学信息大规模无机纳米材料数据集

通过提供新的化学信息的大规模无机纳米材料 (CHILI) 数据集,用于解决图机器学习在周期性和对称性建模方面的挑战,该研究评估了一系列基准方法,并指出未来需要研究的方向。

MatSci ML是一个用于建模固态材料的新型机器学习基准,基于多个开源数据集,包括OpenCatalyst、OQMD、NOMAD、Carolina材料数据库和Materials Project。它的属性多样性使得实施和评估固态材料的多任务学习算法成为可能,并促进了跨多个数据集开发新的更广义的算法和方法。使用MatSci ML,研究人员能够结合多个数据集的观测结果,进行共同预测共同属性。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

太阳能面板分割:自监督学习在不完美数据集上的应用

采用自我监督学习(Self-Supervised Learning)的方法可以显著提高模型的泛化能力,在各种条件下减少对手动标注数据的依赖,为稳健且适应性强的太阳能板分割解决方案铺平了道路。

介绍了自我训练范式的半监督学习方法,通过标注数据训练教师模型并生成伪标签,实现像素级准确模型。在Cityscapes、CamVid和KITTI数据集上表现最佳,跨域泛化任务上表现更好。提出了快速训练计划加速分割模型训练。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

回归数据集的不平衡问题

通过分析回归问题中样本分布的不平衡导致的模型倾向于忽视不常见数据且过度关注常见目标的问题,我们提出了回归问题中不平衡的首次定义,并展示其为分类中常用的不平衡度量的推广。通过这一工作,我们希望引起人们对回归不平衡问题的关注,并为未来的研究提供共同的基础。

本文提出了回归问题中的不平衡定义,并推广了其为分类中常用的不平衡度量。作者希望引起人们对回归不平衡问题的关注,并为未来的研究提供基础。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

Major TOM:面向地球观测的可扩展数据集

提出终端观察元集 (Major TOM) 作为一种可扩展的框架,该框架包含基于一组网格点的地理索引系统和允许合并具有不同来源的多个数据集的元数据结构。此外,还提供了一个名为 MajorTOM-Core 的大型开放访问数据集,该数据集涵盖了地球陆地表面的绝大部分,为研究社区提供了一个有用的资源和未来 Major TOM 生态系统的模板。

Alistair Francis和Mikolaj Czerkawski提出了名为Major TOM的可扩展框架,包含地理索引系统和合并多个数据集的元数据结构。该框架还提供了一个大型开放访问数据集,为研究社区提供资源和未来模板。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

自动化数据集更新以实现可靠和及时评估

通过自动化数据集更新以可靠且及时进行评估,来解决大型语言模型面临的评估挑战及数据泄漏问题。

本研究探讨了大型语言模型(LLMs)在生成人工数据中的作用,发现LLMs在复杂任务中对人类生成内容的微妙理解常常出错。研究强调了在数据创建和使用LLMs时遵循道德实践的必要性,凸显了解决LLM生成内容中的偏差和人为因素的重要性。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

UnlearnCanvas:用于扩展模型传递性能基准的风格化图像数据集

机器遗忘是一种解决扩散模型中存在的问题的新方法,通过改进评估指标和引入新的数据集,我们揭示了机器遗忘方法的优缺点和潜在机制,并推断了 UnlearnCanvas 数据集在评估生成模型任务方面的潜力。

机器遗忘(MU)在大型语言模型(LLMs)中的应用被称为LLM遗忘,旨在消除不良数据影响,保持基本知识生成的完整性。研究重点包括遗忘范围、数据模型交互和多方面功效评估。此外,还探讨了LLM遗忘在版权和隐私保护以及降低社会技术危害方面的应用。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

连接数据点:数据集筛选、差分隐私和对抗不确定性

我们的工作集中于通过与($\epsilon$,$\delta$)- 差分隐私的敌对不确定性选择最优噪声 $\epsilon$ 以理解数据集浓缩的基本机制,提出敌对不确定性是实现最优噪声水平 $\epsilon$ 的最合适方法,并采用满意的噪声估计方案来保证高保真度数据和隐私。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

OpenMathInstruct-1:一个 180 万数学指导调优数据集

利用合成数据集训练大型语言模型(LLMs)的巨大潜力已被展示,尤其是用于获得有针对性的技能。本研究基于开源 LLMs 的最新进展和引导创新,通过某些粗暴的扩展构建了一个包含 180 万个问题 - 解决方案对的数学指导调整数据集 OpenMathInstruct-1,并在 GSM8K 和 MATH 两个热门数学推理基准上取得了与最佳 gpt - 蒸馏模型相竞争的成绩。我们以商业许可证发布了我们的代码、模型和 OpenMathInstruct-1 数据集。

该研究利用合成数据集训练大型语言模型,构建了一个包含180万个问题-解决方案对的数学指导调整数据集OpenMathInstruct-1,并在数学推理基准上取得了与最佳gpt-蒸馏模型相竞争的成绩。他们发布了代码、模型和数据集。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

一个带有多段答案的开放领域问答数据集

CLEAN 是一个综合的中国多段落问答数据集,它包含了广泛的开放领域主题,并需要大量实例来回答描述性问题。

最近提出的长篇问答(QA)系统展示了令人期待的能力。这项工作介绍了一个新的QA任务,通过半抽取方式回答多回答问题。为了研究这个任务,创建了第一个这样类型的数据集QuoteSum。这个任务出人意料地具有挑战性,展示了QuoteSum的重要性。

相关推荐 去reddit讨论

热榜 Top10

...
观测云
...
天勤数据
...
白鲸技术栈
...
ShowMeBug
...
Dify.AI
...
LigaAI
...
eolink

推荐或自荐