OpenAI的新论文分析了语言模型产生幻觉的原因,指出现有评估机制鼓励模型冒险猜测而非诚实表达不确定性。尽管GPT-5在推理上幻觉较少,但因缺乏自信而表现不佳。论文建议更新评估标准,强调惩罚错误比放弃作答更为重要,以提升模型的准确性和可靠性。
许多组织希望通过生成式AI代理来自动化工作流程和提升生产力,但大多数项目在试点后停滞。尽管85%的组织在某一业务功能中使用生成式AI,但缺乏针对特定业务需求的评估机制,导致代理无法有效运作。成功依赖于定制化的代理和持续的性能评估,以确保输出的准确性和合规性。
本研究探讨了大规模语言模型(LLM)代理的潜在风险,提出了一种构建“控制安全案例”的方法,以确保模型不破坏控制措施。案例研究强调了评估机制在安全部署中的重要性。
本研究提出了BEARD基准,用于评估数据集蒸馏方法在高压缩比情况下的对抗鲁棒性。通过对抗游戏框架引入三项关键指标,实验结果表明BEARD为研究人员提供了标准化的评估机制,推动了对抗鲁棒性研究。
本研究介绍了MedExQA,一个用于评估医学知识理解能力的新型基准。通过构建涵盖五个不同医学专业的数据集,并为每个问题提供多个解释,填补了医学问答基准的空白。研究结果表明,使用多个解释进行生成评估更符合人类评估结果,提供了一个更稳健的自动理解评估机制的机会。同时,研究还提出了一种新的医学模型MedPhi-2,展示了它在资源受限的医学领域的有效性。
本文介绍了Whisper-MCE模型在minor language和mixed language语音识别方面的卓越表现,提出了一种新的评估机制。通过与基线模型whisper-large-v2比较,展示了Whisper-MCE模型准确捕捉原始音频内容、实现更高的识别准确率和更快的识别速度的能力。在识别mixed language的特定任务中,Whisper-MCE模型超越了其他现有模型。
该研究探讨了如何设计评估机制以最大化群体中的总体质量得分,并研究了找到最大化社会福利评估机制的算法方面。研究者设计了一个多项式时间算法,并在概率分布足够光滑且具有寻找密集区域的Oracle的情况下实现了(1/4)-近似保证。
完成下面两步后,将自动完成登录并继续当前操作。