小红花·文摘 - 小红花技术领袖俱乐部

识别过度自信的大型语言模型的更好方法

识别过度自信的大型语言模型的更好方法

MIT News - Artificial intelligence ·

本研究提出了音频时序推理评估（TREA）数据集，以解决大型音频语言模型（LALMs）在时序推理任务中的评估不足。研究结果表明，开源LALMs在该数据集上的表现远低于人类，并引入了一种新的不确定性度量，强调全面评估LALMs在高风险应用中的重要性。

Benchmarking and Confidence Evaluation of Large Audio Language Models for Temporal Reasoning

BriefGPT - AI 论文速递 ·

本文提出了一种分层点云主动学习策略，解决了学习3D点云分割的问题。通过使用上下文信息的分层最小边距不确定性模块对每个点进行不确定性度量，并设计了特征距离抑制策略来选择重要和代表性的点进行手动标注。实验结果表明，该框架在使用极少量训练数据时性能优于其他方法。

未知环境下使用信息路径规划的半监督主动学习用于语义分割

BriefGPT - AI 论文速递 ·