研究发现大模型在可靠性上存在问题,GPT-4在某些情况下不如GPT-3。尽管增加算力和人类反馈,新模型的回答可靠性反而下降。模型在简单任务上表现不佳,对提示语表述敏感,依赖人类监督无法解决。建议通过人类难度预期训练模型以改善可靠性。作者强调通用人工智能设计需在高风险领域进行根本性转变。
该论文提出了一个新颖的人机交互方法,通过使用信任作为促进技术采用的工具。作者提出了一个框架,以指导用户对人工智能设计的信任。通过三个案例研究评估了心理测量量表的有效性,以映射用户的信任破裂和关注点。该框架可用于指导系统设计者如何定义用户信任,以及AI系统设计的社会伦理和组织需求和特征。提供了一些用户研究工具,用于评估所提出的解决方案。
该论文提出了一个新的人机交互方法,通过使用信任作为促进技术采用的工具。作者提出了一个框架,以指导用户对人工智能设计的信任。通过三个案例研究评估了心理测量量表的有效性,揭示了计算机科学和人工智能话语中关于用户信任的误解。该框架可用于指导系统设计者如何映射和定义用户信任,以及开发满足用户信任要求的解决方案。
本文提供了一个概念框架,以评估参与式人工智能设计的方法,并表达了关于目前参与实践状况的实证发现。
完成下面两步后,将自动完成登录并继续当前操作。