本研究探讨大型语言模型(LLMs)的伦理价值观,提出了新型提示生成算法DeNEVIL,并构建了高质量数据集MoralPrompt。研究评估了五个LLMs的价值理解,发现模型在“知道什么”方面受扩展法则影响显著,但对“知道为什么”的理解较弱,显示出潜在风险。此外,研究开发了ValueLex框架和ValueBench基准,以评估LLMs的价值取向和理解,强调在多元文化环境中整合文化考量的重要性。
完成下面两步后,将自动完成登录并继续当前操作。