关于大型语言模型诊断不确定性估计的立场论文:下一个单词概率并不是预检概率
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对大型语言模型(LLMs)在临床决策支持中对预检概率估计能力的局限性进行了评估,突出了现有方法的不足之处。通过对Mistral-7B和Llama3-70B进行实验,研究发现需要改进LLM信心估计的技术,从而推动其在诊断决策中的应用。
大型语言模型在医疗问答中具有潜力,但存在错误信息的风险。研究表明,现有的不确定性估计方法效果不佳。我们提出的Two-phase Verification方法通过生成解释和验证问题,有效提高了准确性和稳定性,且模型越大效果越明显。