小红花·文摘

本研究提出了ChestX-Reasoner模型，解决了医疗AI在临床实践中对结构化推理的忽视。该模型在诊断准确性和推理能力上超越了现有的多模态语言模型，推动了医学推理模型的发展。

ChestX-Reasoner: Advancing Radiology Foundation Models through Stepwise Validation

BriefGPT - AI 论文速递 ·

本研究探讨了多模态大型语言模型在图像伪造检测中的应用，提出了一种框架，能够评估图像真实性、定位篡改区域并提供证据。研究表明，模型在伪造分析中的表现优于现有检测方法。

Can GPT Tell Us Why These Images Are Synthesized? Empowering Multimodal Large Language Models for Forensics

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的多模态语言模型DeepMLF，旨在解决多模态情感分析中的融合深度和容量分配不足的问题。该模型通过可学习的标记实现多层次的渐进融合，在三个标准数据集上表现优异，证明了更深的融合能够提升性能。

DeepMLF: A Multimodal Language Model with Learnable Tokens for Deep Fusion in Sentiment Analysis

BriefGPT - AI 论文速递 ·

该研究提出了名为PiCo的越狱框架，针对多模态大型语言模型（MLLMs）的安全漏洞。PiCo通过逐层越狱策略，利用排版攻击和编程上下文指令嵌入有害意图，有效绕过现有防御机制，实验显示其攻击成功率显著高于现有方法，揭示了当前防御措施的缺陷。

PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization

BriefGPT - AI 论文速递 ·

本研究提出了一种基于多模态大型语言模型的管道，以提高临床试验患者匹配的效率。该系统利用电子健康记录数据，自动化匹配患者与试验，准确率达到93%，真实世界准确率为87%，并将每位患者的审核时间缩短了80%。

Real-world validation of a multimodal large language model-powered pipeline for high-accuracy clinical trial patient matching leveraging electronic health record data

BriefGPT - AI 论文速递 ·

科学家构建多模态LLM框架，进行3D脑CT放射学报告生成

机器之心 ·

本研究探讨了多模态大型语言模型在眼科应用中，尤其是OCT图像分析中的临床复杂性。通过构建高质量数据集，评估了七种MMLMs的诊断准确性，发现不同疾病表现的差异，强调了临床基准的重要性。

针对多模态大型语言模型评估的新型眼科基准：使用视网膜照片和光学相干断层扫描图像

BriefGPT - AI 论文速递 ·

本研究提出了多模态大型语言模型MatterChat，旨在解决无机材料性质理解与预测的挑战。该模型结合材料结构数据与文本信息，显著提升了材料性质预测性能，超越了通用模型如GPT-4，展现了在科学推理和材料合成中的潜在价值。

MatterChat: A Multi-Modal Large Language Model for Material Science

BriefGPT - AI 论文速递 ·

本研究提出PRISM方法，旨在解决多模态大型语言模型在视觉指令调优中的数据冗余和高计算成本问题。通过皮尔逊相关分析，PRISM能够有效选择高价值实例，将数据选择时间缩短至传统方法的30%。实验证明其在多个基准测试中优于传统方法。

PRISM: A Training-Free Intrinsic Selection Method for Unsupervised Multimodal Data Selection

BriefGPT - AI 论文速递 ·

为什么 LLM 在 OCR 任务上表现糟糕

宝玉的分享 ·

本研究提出了一种名为苏格拉底式提问（SQ）的创新框架，旨在解决复杂视觉推理中的方法结合和高训练成本问题。该方法通过引导多模态大型语言模型关注与目标问题相关的视觉线索，显著降低幻觉现象，提高细粒度图像描述能力，在视觉推理和问答任务中表现优异。

Socratic Questioning: Learning Self-Guided Multimodal Reasoning in Complex Environments

BriefGPT - AI 论文速递 ·

该研究提出了一种基于多模态大型语言模型（MLLM）的变电设备故障分析方法，减少了对人工专业知识的依赖。通过构建包含40,000个条目的数据库并进行数据增强，SubstationAI在故障原因分析、修复建议和预防措施方面显著优于现有模型，提供了先进的故障分析解决方案。

SubstationAI: A Multimodal Large Model-Based Approach for Analyzing Substation Equipment Faults

BriefGPT - AI 论文速递 ·

本研究提出PsyDraw系统，旨在解决中国留守儿童心理健康筛查的难题，特别是在资源有限的地区。该系统结合多模态语言模型，辅助分析HTP测试，有效识别需要关注的案例，前景乐观。

PsyDraw：一个为留守儿童进行心理健康筛查的多代理多模态系统

BriefGPT - AI 论文速递 ·

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

机器之心 ·

本研究探讨了多模态大型语言模型在传统语言和视觉任务之外的应用，提出了一种将其转化为通用具身智能体的方法。研究表明，跨域数据和在线强化学习对构建通用智能体至关重要，最终模型在新任务上展现出强大的泛化能力。

From Multimodal Large Language Models to Generalist Embodied Agents: Methods and Experiences

BriefGPT - AI 论文速递 ·

本文探讨了指令模板在多模态语言模型评估和训练中的重要性，提出了一种程序化指令模板生成器，能够生成超过390亿种独特模板组合，显著影响模型性能，强调了模板在训练中的关键作用。

The Importance of Templates: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training

BriefGPT - AI 论文速递 ·

本研究提出了一种名为时间线组装器的生成模型，通过自然语言指令简化复杂视频编辑任务，使非专家用户能够轻松操作。研究开发了大型多模态语言模型，并创建了新数据集，验证结果显示该模型在执行复杂指令方面显著优于现有模型。

ChestX-Reasoner: Advancing Radiology Foundation Models through Stepwise Validation

Can GPT Tell Us Why These Images Are Synthesized? Empowering Multimodal Large Language Models for Forensics

DeepMLF: A Multimodal Language Model with Learnable Tokens for Deep Fusion in Sentiment Analysis

PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization

Real-world validation of a multimodal large language model-powered pipeline for high-accuracy clinical trial patient matching leveraging electronic health record data

科学家构建多模态LLM框架，进行3D脑CT放射学报告生成

针对多模态大型语言模型评估的新型眼科基准：使用视网膜照片和光学相干断层扫描图像

MatterChat: A Multi-Modal Large Language Model for Material Science

PRISM: A Training-Free Intrinsic Selection Method for Unsupervised Multimodal Data Selection

为什么 LLM 在 OCR 任务上表现糟糕

Socratic Questioning: Learning Self-Guided Multimodal Reasoning in Complex Environments

SubstationAI: A Multimodal Large Model-Based Approach for Analyzing Substation Equipment Faults

PsyDraw：一个为留守儿童进行心理健康筛查的多代理多模态系统

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

From Multimodal Large Language Models to Generalist Embodied Agents: Methods and Experiences

The Importance of Templates: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training

基于自然语言指令的生成时间线视觉组装

MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models in Human Emotion Analysis

分析视觉符号的语言

LLM2CLIP：强大的语言模型解锁更丰富的视觉表征