小红花·文摘

本研究探讨大型语言模型（LLMs）的伦理价值观，提出了新型提示生成算法DeNEVIL，并构建了高质量数据集MoralPrompt。研究评估了五个LLMs的价值理解，发现模型在“知道什么”方面受扩展法则影响显著，但对“知道为什么”的理解较弱，显示出潜在风险。此外，研究开发了ValueLex框架和ValueBench基准，以评估LLMs的价值取向和理解，强调在多元文化环境中整合文化考量的重要性。