标签

 基准测试 

相关的文章:

这是一个基准测试文章集合,包括长上下文文档理解、视频理解、语言模型等方面的研究。文章涵盖了视觉化评估、缓存压缩、多模态模型、LLM、模棱两可问题解析、视觉推理、数学问题解决技能、心理状态表征、动态变量扰动、深度学习模型等内容。

GermanPartiesQA:商用大型语言模型在政治偏见和奉迎方面的基准测试

原文约300字,阅读约需1分钟。发表于:

评估和比较了六个 LLMs(语言模型)在德国政党立场上的一致性,并通过实验评估了奉承行为;研究发现在所有的 LLMs 中存在左倾绿色倾向,而对于 LLMs 的输出变化,结果显示更适合描述为根据给定上下文的个性化,而非奉承行为。

本研究使用大规模语言模型(LLMs)解读和预测社交媒体上的政治偏见。研究发现LLMs在捕捉情绪和道德细微差别方面有效,但在立场检测方面存在挑战。该研究展示了LLMs在政治敏感环境中的潜力和重要性。

相关推荐 去reddit讨论

EllipBench:基于机器学习的椭圆度建模的大规模基准测试

原文约600字,阅读约需2分钟。发表于:

应用椭偏光谱测量薄膜的光学特性和厚度,在反问题求解时传统的机器学习方法需要耗费大量时间和人工技术,为此,本研究提出了一种深度学习框架,结合残差连接和自注意机制,使用大规模基准数据集进行训练,在薄膜厚度预测方面取得了最先进的性能。

MatSci ML是一个用于建模固态材料的新型机器学习基准,使用多样化的材料系统和属性数据进行模型训练和评估,促进了算法和方法的发展。它允许研究人员结合多个数据集的观测结果进行共同属性预测。评估了不同的图神经网络和等变点云网络在几个基准任务上的性能。

相关推荐 去reddit讨论

Hi-EF:人际互动中情感预测的基准测试

原文约300字,阅读约需1分钟。发表于:

情感预测是心理学中的研究方向,该研究通过设计基于双方互动的情感预测范式将情感预测转化为深度学习问题。我们开发了一个专门的数据集,基于人际互动的情感预测(Hi-EF),其中包含 3069 个双方多层次情境交互样本(MCIS),具有丰富的情感相关标签和三种模态,并利用此数据集建立了一个基准模型,并进行了大量实验。

情感预测是心理学中的研究方向,通过设计基于双方互动的情感预测范式将情感预测转化为深度学习问题。研究者开发了一个基于人际互动的情感预测数据集(Hi-EF),包含3069个双方多层次情境交互样本,具有丰富的情感相关标签和三种模态,并建立了一个基准模型进行实验。

相关推荐 去reddit讨论

AbdomenAtlas:一种大规模、详细注释的多中心数据集,用于高效的迁移学习和开放算法基准测试

原文约500字,阅读约需2分钟。发表于:

我们引入了最大的腹部 CT 数据集(称为 AbdomenAtlas),它由来自 112 家医院的 20,460 个三维 CT 体积组成,涵盖了不同的人群、地理区域和设施。AbdomenAtlas 由 10 位放射科医生与 AI 算法的帮助下标注的 673K 个腹部解剖结构的高质量掩膜提供支持。该数据集具有大规模、详细标注和多中心的特点,对于 AI...

我们引入了最大的腹部CT数据集(AbdomenAtlas),由112家医院的20,460个三维CT体积组成。该数据集由10位放射科医生与AI算法标注的673K个腹部解剖结构的高质量掩膜提供支持。AbdomenAtlas具有大规模、详细标注和多中心的特点,为AI的开发提供了重要资源,并扩展到更广泛的临床应用领域。此外,AbdomenAtlas还为评估AI算法建立了大规模基准测试,以确保在复杂的临床场景中获得可靠的性能。希望AbdomenAtlas能为更大规模的临床试验奠定基础,并为医学成像领域的从业者提供机会。

相关推荐 去reddit讨论

基于大规模人类数据的自主驾驶赛车仿真基准测试

原文约300字,阅读约需1分钟。发表于:

本文提出了基于 Assetto Corsa 模拟器的赛车模拟平台,用于测试、验证和评估自主驾驶算法,包括强化学习和经典模型预测控制,在逼真和具有挑战性的情境中。此外,我们还评估了离线强化学习设置中的算法,提供了开源的代码、工作示例、数据集和视频。

本文介绍了基于Assetto Corsa模拟器的赛车模拟平台,用于测试和评估自主驾驶算法,包括强化学习和经典模型预测控制。同时,还评估了离线强化学习设置中的算法,并提供了开源的代码、工作示例、数据集和视频。

相关推荐 去reddit讨论

基于图中的晶体变压器,用于预测非传统晶体材料特性和基准测试

原文约300字,阅读约需1分钟。发表于:

通过设计基于 Transformer 的几何图网络 CrysToGraph 以及多项任务的综合评估基准 UnconvBench,我们提出有效地模拟非传统晶体材料的 CrysToGraph,在非传统晶体和传统晶体的基准测试中均取得了新的最佳结果。

CrystalFormer是一种基于Transformer的自回归模型,用于生成由空间群控制的晶体材料。它能准确提取出合理的固态化学信息,具有高效、新颖和稳定的性能,成为晶体材料建模和发现的基础模型。

相关推荐 去reddit讨论

何时、何地及何事?一项用大型语言模型进行事故及时预测与定位的新型基准测试

原文约300字,阅读约需1分钟。发表于:

通过整合大规模语言模型,本研究提出了一种新的框架来提升多个维度(何时、何地)的交通事故预测能力,通过动态调整的链式注意机制以及三阶段模型对复杂驾驶场景的高风险元素进行处理,并验证了其在事故预测技术中的超卓表现,为自动驾驶安全的技术框架推进以及人工智能与人类交互的增强提供了新的范例。

本研究提出了一种整合大规模语言模型的新框架,用于提升交通事故预测能力。该框架使用链式注意机制和三阶段模型处理复杂驾驶场景的高风险元素,并在事故预测技术中表现出色。这为自动驾驶安全和人工智能与人类交互提供了新的范例。

相关推荐 去reddit讨论

MOMAland:多目标多智能体强化学习的一套基准测试

原文约200字,阅读约需1分钟。发表于:

在多目标多智能体强化学习领域,我们引入了 MOMAland,这是第一个用于多目标多智能体强化学习的标准化环境集合,旨在支持该领域的发展,并提供了算法和强大的基线模型。

本文介绍了SMART,一个用于多机器人强化学习的仿真平台,包含仿真环境和真实多机器人系统,提供多样化的交互场景进行训练,并支持基于插件的算法实现。开源仿真环境、基准测试任务和基线模型,推动多机器人强化学习研究。

相关推荐 去reddit讨论

斯坦福/苹果等23所机构发布DCLM基准测试,高质量数据集能否撼动Scaling Laws?基础模型与Llama3 8B表现相当

原文约5300字,阅读约需13分钟。发表于:

针对语言模型训练所需数据量持续提升,以及数据质量等问题,华盛顿大学、斯坦福大学、苹果等 23 所机构联手,提出了一个实验测试平台 DataComp for Language Models (DCLM),其核心是来自 Common Crawl 的 240T 新候选词库,通过固定训练代码,鼓励研究人员提出新的训练集来进行创新,对于语言模型的训练集改进具有重大意义。结果显示,基于...

OpenAI的Scaling Laws被视为大语言模型的摩尔定律。清华大学博士指出,为了提升模型性能,需要增加数据量至少10个数量级。华盛顿大学等机构提出了实验测试平台DCLM,通过固定训练代码,鼓励研究人员提出新的训练集来进行创新。DCLM-BASELINE是一个高质量训练集,通过基于模型的过滤达到了64%的准确性。DCLM提供了新的思考范式和可能性。

相关推荐 去reddit讨论

HIMO: 一个新的基准测试用于全身人体与多个物体的互动

原文约400字,阅读约需1分钟。发表于:

生成人与物体交互的关键是数字化角色的巨大进展。现有数据集通常限于人与单个物体的互动,忽略了对多个物体的普遍操纵。因此,我们提出了 HIMO,一个包含 3.3K 4D HOI 序列和 4.08M 3D HOI 帧的人体多物体大规模 MoCap 数据集。我们还通过详细的文本描述和时间段对 HIMO 进行了注释,并基准测试了基于整个文本提示或分段文本提示的 HOI...

介绍了HIMO数据集,包含3.3K 4D HOI序列和4.08M 3D HOI帧。提出了双分支条件扩散模型进行HOI合成,并设计了自回归生成流程。实验结果显示模型具有泛化能力。

相关推荐 去reddit讨论