研究发现,大型语言模型在类风湿关节炎的诊断中能够做出正确判断,但常常出现错误推理。通过创建包含153个临床案例的PreRAID数据集,评估了GPT-4、Claude和Gemini的诊断能力,结果显示预测准确性与推理质量之间存在显著差距。
本研究探讨了奖励模型在大型语言模型中对人类偏好的对齐及推理质量提升的重要性,指出现有模型更注重结构一致性而非因果正确性,强调需开发关注因果关系的奖励模型。
本研究提出了MathFimer框架,通过“填补中间”任务增强数学推理步骤,解决推理质量不足的问题。结果表明,使用MathFimer训练的模型在多个测试中优于传统模型,显示出提升语言模型数学推理能力的潜力。
本研究提出自适应思维链(AdaCoT)框架,旨在解决大型语言模型在多语言推理中的性能差异。通过动态调整思维路径,显著提升低资源语言的推理质量和跨语言一致性,缩小高低资源语言之间的性能差距。
研究人员提出了MagicPIG,通过在CPU上应用局部敏感哈希(LSH)技术,显著提升了大模型解码吞吐量1.76至4.99倍,减轻了GPU内存压力,并提高了推理质量和准确率。这项研究探索了异构计算的潜力,有望降低模型部署成本。
该研究使用生成流网络对因果祖先图进行采样,并通过与专家互动减少不确定性。通过重要性采样结合人的反馈,更新样本,提高推理质量。实验结果表明,该方法能够准确地对因果祖先图的分布进行采样,并在人类帮助下大大提高推理质量。
本文介绍了一种更数据高效的概率元学习方法,即APOVI-BNN。该方法通过摊销伪观测变分推理贝叶斯神经网络,提高了贝叶斯神经网络的推理质量。同时,APOVI-BNN作为神经过程家族的新成员,在复杂问题上具有更好的预测性能。在一维回归问题和图像完成设置中,APOVI-BNN在训练数据有限的情况下表现最好。
完成下面两步后,将自动完成登录并继续当前操作。