小红花·文摘

本研究探讨了大型语言模型（LLMs）在用户交互中的可靠性和一致性问题，提出了言行一致性测试（WDCT）作为新评估基准。研究发现，LLMs在多个领域普遍存在言行不一致现象，单靠词语或行动的对齐可能导致不可预测的影响。