地质图是地质科学的重要工具,广泛应用于灾害预警、矿产勘探和环境保护。微软亚洲研究院推出的GeoMap-Bench基准集和GeoMap-Agent智能体,旨在提升地质图理解的准确性和效率,帮助地质学家快速识别关键地质信息,减少人工分析时间和误差,推动人工智能在地质学的应用。
大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的快速发展暴露了各种对抗性攻击的漏洞。本文综述了针对 LLMs 和 MLLMs 的越狱研究的最新进展,重点介绍了评估基准、攻击技术和防御策略。与单模态越狱的更先进状态相比,多模态领域仍未得到充分开发。我们总结了多模态越狱的限制和潜在研究方向,旨在激发未来研究,进一步增强 MLLMs 的鲁棒性和安全性。
hyper.ai官网更新了优质公共数据集和教程精选,包括ChartQA、RS5M、CapsFusion-120M、ShareGPT4V、RLAIF-V-Dataset、FoodLogoDet-1500、ZSFooD、Food-1K、ISIA Ingredient-201和ISIA Food-500。教程精选包括ComfyUI DynamiCrafter教程和GLM-4-9B-Chat Demo。此外,还有社区文章精选和热门百科词条。
本研究介绍了一种专门的基准测试LIConBench,评估了13个长上下文大语言模型在20K令牌长度下的表现。发现大部分模型受益于长上下文窗口,但在超过20K的上下文窗口下,除了GPT-4外,大部分模型表现下降。LIConBench可作为未来评估长上下文大语言模型的工具。
在这项研究中,研究人员引入了一种名为Fact的新范式,通过可验证的视觉编程生成可执行的代码,增强了忠实性和精确性。通过一系列操作提高了简洁性,并保证了可传递性。实验证据表明该方法在各种参数大小的模型上表现出优异的组合推理和泛化能力,并减少了错觉。
我们介绍了 Draw-and-Understand 项目,其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了 SPHINX-V,一种新的端到端训练的多模域大型语言模型,用于连接视觉编码器、视觉提示编码器和语言理解模型,以实现各种视觉提示和语言理解。同时,我们还提出了 MDVP-Data 和...
本文介绍了一种针对大型视觉语言模型的训练策略MoE-tuning,通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型,有效解决多模态学习和模型稀疏性带来的性能退化问题。实验证明,MoE-LLaVA在视觉理解方面具有出色的能力,并且在模型输出的对象幻象基准测试中超越了LLaVA-1.5-13B,在各种视觉理解数据集上表现可与LLaVA-1.5-7B相媲美。通过MoE-LLaVA,我们旨在为稀疏LVLMs建立基准,并为未来开发更高效和有效的多模态学习系统提供有价值的见解。
通过对专有和开源多模态大语言模型的定性研究,本文旨在增强对最近的 MLLM 在一般化、可信度和因果推理能力方面与广大公众期望之间差距的理解,主要关注文本、代码、图像和视频四个模态,最终目标是提高 MLLM 透明度,发现 14 个实证性发现以深入了解专有和开源 MLLM 的能力和限制,以实现更可靠的多模态下游应用。
该论文介绍了AGREE框架,用于改善大型语言模型在真实世界中的应用。该框架通过考虑生成的支持信息和提供引用来调整模型对检索文档中主张的立足,解决了生成的“幻觉”答案不符事实的问题。实验结果表明,基于调整的AGREE框架相较于基于提示的方法,生成了更好的基于立足的回答和更准确的引用。
本调查全面概述了大型语言模型(LLM)幻像领域的最新进展,包括幻像创新分类、成因、检测方法、基准以及减轻策略,并分析了当前挑战和未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。