本研究探讨了大型语言模型(LLMs)在用户交互中的可靠性和一致性问题,提出了言行一致性测试(WDCT)作为新评估基准。研究发现,LLMs在多个领域普遍存在言行不一致现象,单靠词语或行动的对齐可能导致不可预测的影响。
完成下面两步后,将自动完成登录并继续当前操作。