小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
首个评估MLLMs对地质图理解的基准集,以及专为地质图理解设计的Agent

地质图是地质科学的重要工具,广泛应用于灾害预警、矿产勘探和环境保护。微软亚洲研究院推出的GeoMap-Bench基准集和GeoMap-Agent智能体,旨在提升地质图理解的准确性和效率,帮助地质学家快速识别关键地质信息,减少人工分析时间和误差,推动人工智能在地质学的应用。

首个评估MLLMs对地质图理解的基准集,以及专为地质图理解设计的Agent

机器之心
机器之心 · 2025-03-24T06:10:23Z

大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的快速发展暴露了各种对抗性攻击的漏洞。本文综述了针对 LLMs 和 MLLMs 的越狱研究的最新进展,重点介绍了评估基准、攻击技术和防御策略。与单模态越狱的更先进状态相比,多模态领域仍未得到充分开发。我们总结了多模态越狱的限制和潜在研究方向,旨在激发未来研究,进一步增强 MLLMs 的鲁棒性和安全性。

从 LLMs 到 MLLMs:探索多模态越狱的领域

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-21T00:00:00Z

hyper.ai官网更新了优质公共数据集和教程精选,包括ChartQA、RS5M、CapsFusion-120M、ShareGPT4V、RLAIF-V-Dataset、FoodLogoDet-1500、ZSFooD、Food-1K、ISIA Ingredient-201和ISIA Food-500。教程精选包括ComfyUI DynamiCrafter教程和GLM-4-9B-Chat Demo。此外,还有社区文章精选和热门百科词条。

倒计时 3 天!立即预约苹果 WWDC24 直播;RLAIF-V 大规模多模态偏好数据集上线,有效减少不同 MLLMs 幻觉现象

HyperAI超神经
HyperAI超神经 · 2024-06-07T05:38:35Z

本研究介绍了一种专门的基准测试LIConBench,评估了13个长上下文大语言模型在20K令牌长度下的表现。发现大部分模型受益于长上下文窗口,但在超过20K的上下文窗口下,除了GPT-4外,大部分模型表现下降。LIConBench可作为未来评估长上下文大语言模型的工具。

从文本到像素:MLLMs 中的长篇背景理解的进展

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-23T00:00:00Z

在这项研究中,研究人员引入了一种名为Fact的新范式,通过可验证的视觉编程生成可执行的代码,增强了忠实性和精确性。通过一系列操作提高了简洁性,并保证了可传递性。实验证据表明该方法在各种参数大小的模型上表现出优异的组合推理和泛化能力,并减少了错觉。

使用忠实、简洁和可传递的原理教授 MLLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-17T00:00:00Z

我们介绍了 Draw-and-Understand 项目,其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了 SPHINX-V,一种新的端到端训练的多模域大型语言模型,用于连接视觉编码器、视觉提示编码器和语言理解模型,以实现各种视觉提示和语言理解。同时,我们还提出了 MDVP-Data 和...

绘制与理解:利用视觉提示使 MLLMs 能够理解您想要的内容

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-29T00:00:00Z

本文介绍了一种针对大型视觉语言模型的训练策略MoE-tuning,通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型,有效解决多模态学习和模型稀疏性带来的性能退化问题。实验证明,MoE-LLaVA在视觉理解方面具有出色的能力,并且在模型输出的对象幻象基准测试中超越了LLaVA-1.5-13B,在各种视觉理解数据集上表现可与LLaVA-1.5-7B相媲美。通过MoE-LLaVA,我们旨在为稀疏LVLMs建立基准,并为未来开发更高效和有效的多模态学习系统提供有价值的见解。

LLaVA-MoLE:稀疏的 LoRA 专家混合模型用于缓解指令微调 MLLMs 中的数据冲突

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-29T00:00:00Z

通过对专有和开源多模态大语言模型的定性研究,本文旨在增强对最近的 MLLM 在一般化、可信度和因果推理能力方面与广大公众期望之间差距的理解,主要关注文本、代码、图像和视频四个模态,最终目标是提高 MLLM 透明度,发现 14 个实证性发现以深入了解专有和开源 MLLM 的能力和限制,以实现更可靠的多模态下游应用。

从 GPT-4 到 Gemini 和更远:通过四种方式评估 MLLMs 的一般化能力、可靠性和因果关系

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-26T00:00:00Z

该论文介绍了AGREE框架,用于改善大型语言模型在真实世界中的应用。该框架通过考虑生成的支持信息和提供引用来调整模型对检索文档中主张的立足,解决了生成的“幻觉”答案不符事实的问题。实验结果表明,基于调整的AGREE框架相较于基于提示的方法,生成了更好的基于立足的回答和更准确的引用。

提升文档理解能力的研究:基于 MLLMs 的文本定位探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-22T00:00:00Z

本调查全面概述了大型语言模型(LLM)幻像领域的最新进展,包括幻像创新分类、成因、检测方法、基准以及减轻策略,并分析了当前挑战和未来研究方向。

一种适用于 MLLMs 幻觉评估的无 LLM 多维基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码