信任的普适性:语言模型中的弱至强可信度

📝

内容提要

本研究针对生成AI中语言模型的弱至强可信度的普适性进行探讨,揭示了是否强模型可以通过微调弱模型的输出而继承可信属性的问题。我们提出了两种训练策略,并发现公平性、对抗性及OOD鲁棒性等属性在经过正则化后取得显著提升,而隐私等属性则未能表现出弱至强可信度的特征。这一研究为弱至强信任性质的深入理解提供了重要的见解。

🏷️

标签

➡️

继续阅读