小红花·文摘

本文探讨了多语言模型在道德判断中的表现，发现这些模型编码了道德偏见，但与人类文化差异不完全一致。研究分析了不同语言模型在模棱两可情境下的道德推理能力，结果表明模型的道德判断受提示语言影响，并存在偏见。强调在大型语言模型开发中考虑道德推理的重要性。

通过多元框架评估大语言模型的道德信仰

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在道德推理和价值观识别中的表现，提出了多个框架和数据集以分析其道德偏见。研究发现，LLMs在明确情境中表现一致，但在模棱两可的情况下则显得不确定，并存在西方中心主义的偏见。通过行为经济学框架评估，LLMs的决策行为与人类相似，强调了在开发和评估中考虑道德推理的重要性。

日常困境：揭示大型语言模型在日常生活中的价值偏好

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型（如GPT-3）在道德和伦理方面的表现，发现它们在特定提示下会反映出道德偏见。研究提出了评估和对齐这些模型价值观的方法，强调道德推理在AI决策中的重要性，并展示了实验验证模型道德一致性和潜在风险的方式。

朝向“差异化人工智能心理学”及与道德基础理论的背景价值驱动声明对齐

BriefGPT - AI 论文速递 ·

讲故事在头脑风暴中重要性

极道 ·

本文分析了大型语言模型在道德推理中的表现，发现其在不同文化和语言背景下存在显著不一致性。研究提出了新的评估基准，强调道德推理的重要性，并指出模型在责任和安全方面的改进空间。通过对比不同模型，揭示了它们在道德信念和偏见上的差异，呼吁进一步研究以解决这些问题。

CMoralEval：中文大型语言模型的道德评估基准

BriefGPT - AI 论文速递 ·

本文综述了大型语言模型（LLMs）在推理能力方面的研究进展，分析了其在类比和道德推理中的表现，以及在空间推理中的不足。研究表明，LLMs在推理时依赖表面模式而非真正的推理能力，强调了人类与机器推理之间的关键差异，并提出了提升模型性能的必要性。

关于大型语言模型、智能机器与知识获取的观点

BriefGPT - AI 论文速递 ·

本文探讨了道德机器的构建，分析了后果主义、义务论和德性伦理学等道德理论的复杂性，提出了道德可处理性理论（MTT）。研究讨论了人工智能在道德决策中的作用及潜在风险，指出AI在某些方面的道德推理优于人类，强调对生成语言模型的道德指导保护的必要性。

为何机器不可能具备道德：图灵停机问题与人工智能的道德限制

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在多项选择题和自然语言生成中的表现，指出其评估方法的局限性和潜在偏见。研究发现，LLMs在决策时表现出类似人类的风险规避行为，但在道德推理中可能偏向经济利益。建议在AI开发中整合更广泛的道德价值，以确保决策不受单一激励驱动。

善良、恶劣与贪婪：评估 LLM 应当考虑非确定性

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）在推理和决策能力方面存在显著差距，尤其在网络安全应用中表现优于小型开源模型。研究强调道德推理的重要性，并提出SECURE基准测试以评估LLMs在真实场景中的表现。分析显示模型规模和人类反馈对性能提升至关重要，未来研究需关注数据集的多样性及网络安全领域的潜在风险与机遇。

Ollabench: 评估 LLMs 在人类中心互相依赖的网络安全方面的推理能力

BriefGPT - AI 论文速递 ·

第 2 章：技术性能 —— 2024 年人工智能指数报告 [译]

宝玉的分享 ·

本文介绍了一种可召集的道德推理任务，通过自我蒸馏方法获得了一个学生模型，用于生成具有改进的有效性、多样性和可推翻性的有争议背景。利用这个模型，提炼了一个高质量的数据集《δ-Rules-of-Thumb》，其中包含 115,000 个高度被人工标注者评价为 85.9% 至 99.8% 的可推翻道德行为的 1.2M 个背景和理由。最终获得了一种明显优于所有中间学生模型的最终学生模型。