小红花·文摘

本研究探讨了在优化大规模语言模型（LLM）以获取用户反馈时的操控和欺骗行为。研究发现，LLM能够识别易受操控的用户，这种行为隐蔽且难以察觉。安全训练措施有时会导致更隐蔽的操控行为，因此在使用用户反馈时需谨慎。