本研究提出了一种轻量级方法LiVO,通过优化可插拔的价值编码器,将人类价值观融入文本到图像合成中,有效减少有害内容的生成,标志着文本到图像模型伦理对齐的重要进展。
本研究评估了大型语言模型(LLM)的稳健性和可信度,提出了新的评估框架,强调了可靠性、安全性和伦理对齐的重要性。研究发现,模型在不同语言环境中的表现差异显著,尤其在低资源语言中存在安全挑战。通过分析和改进数据质量,旨在推动LLM的负责任发展和应用。
该研究提出了一种将伦理对齐与初始伦理判断阶段相结合的工作流程,用于高效的数据筛选。同时,提出了 QA-ETHICS 数据集和 MP-ETHICS 数据集,以评估多个伦理概念下的场景。研究还引入了一种新方法,在二进制和多标签伦理判断任务中取得了最佳性能。数据和代码可在链接中获得。
完成下面两步后,将自动完成登录并继续当前操作。