本文研究医学影像AI在临床中的表现,指出忽视性能变异性的问题。通过估算未报告的标准差,提供准确的置信区间。研究发现,超过60%的论文中,第二名方法的平均性能在第一名的置信区间内,说明现有研究不足以支持模型的临床应用。
本研究使用预训练的语音表示对呼叫中心对话进行满意度和挫折情绪检索,发现预训练特征能提升性能,语言内容在满意度预测中起主导作用,融合声学和语言模态的优势不明显。研究还探讨了性能变异性的问题,并分析了语言模态的可解释因素。
完成下面两步后,将自动完成登录并继续当前操作。