小红花·文摘

本研究针对大型语言模型在网络威胁情报（CTI）任务中的可靠性问题进行了评估，提出了一种评估方法，以测试其在零样本学习、少样本学习和微调中的表现。研究发现，尽管少样本学习和微调仅能部分改善结果，但大型语言模型在面对真实报告时表现不足且不一致，表明其在CTI情境中的应用存在潜在安全风险。

BriefGPT - AI 论文速递 ·

本研究针对大型语言模型在高风险领域应用中的不可靠性，提出了一种新的不确定性量化分类法，以提升模型的可信度，并揭示了不确定性的来源及提升可靠性的挑战。

BriefGPT - AI 论文速递 ·

Martin Fowler ·