小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究解决了高效多模态大语言模型(EMLLMs)在自评推理方面的优化问题,提出了新的自评增强训练方法(SEAT)以及级联自评增强训练方法(Cas-SEAT)。通过分解长提示为短的任务特定提示,Cas-SEAT显著提升了模型的自评能力,具体在MathVista、Math-V和We-Math数据集上分别提高了19.68%、55.57%和46.79%的性能,为未来EMLLM自评研究提供了重要资源。

级联自评增强训练用于高效的多模态大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-10T00:00:00Z

人工智能在不同关键场景中已经被广泛应用,但其可靠性和透明度仍存在挑战,本文提出了一种自评估方法来解决此问题,并给出了指导方针和方法选择原则,旨在帮助机器学习工程师和用户选择适合的自评估技术。

AI 自评不确定性感知设计的决策驱动方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-02T00:00:00Z

该研究探索了AI性格的概念,发现大型语言模型(LLMs)呈现出与人类个性类似的模式。通过心理测量测试,确认了LLMs的个性类型,并展示了它们在不同个性类型之间动态切换的能力。该研究开创了在LLMs上应用项目性测试的先例,揭示了它们多样而适应性的AI性格特征。

自评、展示和认可:大型自然语言模型中的人格评价综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-25T00:00:00Z

本文研究了大语言模型(LLMs)如何呈现出与不同价值观和个性特质相关的不同视角。研究者使用心理学问卷来研究模型表现的价值观和个性特质如何因不同视角而变化。通过定性和定量实验,研究者证明了LLMs在不同情境下表达不同的价值观和人格特质,并探讨了多种相关的科学问题。

研究自评测验在大型语言模型的人格测量中的适用性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-15T00:00:00Z

本研究提出了一种新的推理方法RAIN,通过整合自评和倒带机制,可以直接生成与人类偏好一致的回答,无需额外数据进行模型对齐。实验证明RAIN有效,改善了LLaMA 30B模型的无害率,同时在对抗性攻击下降低了攻击成功率。

RAIN: 语言模型可以自动对齐,无需微调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码