小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了ChestX-Reasoner模型,解决了医疗AI在临床实践中对结构化推理的忽视。该模型在诊断准确性和推理能力上超越了现有的多模态语言模型,推动了医学推理模型的发展。

ChestX-Reasoner: Advancing Radiology Foundation Models through Stepwise Validation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本研究探讨了多模态大型语言模型在图像伪造检测中的应用,提出了一种框架,能够评估图像真实性、定位篡改区域并提供证据。研究表明,模型在伪造分析中的表现优于现有检测方法。

Can GPT Tell Us Why These Images Are Synthesized? Empowering Multimodal Large Language Models for Forensics

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z

本研究提出了一种新颖的多模态语言模型DeepMLF,旨在解决多模态情感分析中的融合深度和容量分配不足的问题。该模型通过可学习的标记实现多层次的渐进融合,在三个标准数据集上表现优异,证明了更深的融合能够提升性能。

DeepMLF: A Multimodal Language Model with Learnable Tokens for Deep Fusion in Sentiment Analysis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

该研究提出了名为PiCo的越狱框架,针对多模态大型语言模型(MLLMs)的安全漏洞。PiCo通过逐层越狱策略,利用排版攻击和编程上下文指令嵌入有害意图,有效绕过现有防御机制,实验显示其攻击成功率显著高于现有方法,揭示了当前防御措施的缺陷。

PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出了一种基于多模态大型语言模型的管道,以提高临床试验患者匹配的效率。该系统利用电子健康记录数据,自动化匹配患者与试验,准确率达到93%,真实世界准确率为87%,并将每位患者的审核时间缩短了80%。

Real-world validation of a multimodal large language model-powered pipeline for high-accuracy clinical trial patient matching leveraging electronic health record data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z
科学家构建多模态LLM框架,进行3D脑CT放射学报告生成

多模态大型语言模型(MLLM)在医疗领域的3D医学图像自动放射学报告生成(RRG)中展现出变革性应用。台北荣民总医院等机构开发的BrainGPT模型,针对3D脑CT数据集进行了临床视觉指令调整(CVIT),并提出了面向特征的放射学任务评估(FORTE)。研究表明,BrainGPT生成的报告与人类报告相似,且在评估中表现优异,推动了医学AI的发展。

科学家构建多模态LLM框架,进行3D脑CT放射学报告生成

机器之心
机器之心 · 2025-03-13T06:23:00Z

本研究探讨了多模态大型语言模型在眼科应用中,尤其是OCT图像分析中的临床复杂性。通过构建高质量数据集,评估了七种MMLMs的诊断准确性,发现不同疾病表现的差异,强调了临床基准的重要性。

针对多模态大型语言模型评估的新型眼科基准:使用视网膜照片和光学相干断层扫描图像

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究提出了多模态大型语言模型MatterChat,旨在解决无机材料性质理解与预测的挑战。该模型结合材料结构数据与文本信息,显著提升了材料性质预测性能,超越了通用模型如GPT-4,展现了在科学推理和材料合成中的潜在价值。

MatterChat: A Multi-Modal Large Language Model for Material Science

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

本研究提出PRISM方法,旨在解决多模态大型语言模型在视觉指令调优中的数据冗余和高计算成本问题。通过皮尔逊相关分析,PRISM能够有效选择高价值实例,将数据选择时间缩短至传统方法的30%。实验证明其在多个基准测试中优于传统方法。

PRISM: A Training-Free Intrinsic Selection Method for Unsupervised Multimodal Data Selection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
为什么 LLM 在 OCR 任务上表现糟糕

多模态语言模型在复杂PDF解析中存在识别错误和安全风险,尽管使用方便,但仍需人工校对。LLM在OCR任务中的表现不佳,尤其在处理复杂排版和表格时,容易出现错误和信息丢失。模型的概率特性可能导致生成内容偏离原文,尤其在法律和医疗等关键领域,可能造成严重后果。

为什么 LLM 在 OCR 任务上表现糟糕

宝玉的分享
宝玉的分享 · 2025-02-08T18:50:10Z

本研究提出了一种名为苏格拉底式提问(SQ)的创新框架,旨在解决复杂视觉推理中的方法结合和高训练成本问题。该方法通过引导多模态大型语言模型关注与目标问题相关的视觉线索,显著降低幻觉现象,提高细粒度图像描述能力,在视觉推理和问答任务中表现优异。

Socratic Questioning: Learning Self-Guided Multimodal Reasoning in Complex Environments

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-06T00:00:00Z

该研究提出了一种基于多模态大型语言模型(MLLM)的变电设备故障分析方法,减少了对人工专业知识的依赖。通过构建包含40,000个条目的数据库并进行数据增强,SubstationAI在故障原因分析、修复建议和预防措施方面显著优于现有模型,提供了先进的故障分析解决方案。

SubstationAI: A Multimodal Large Model-Based Approach for Analyzing Substation Equipment Faults

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-22T00:00:00Z

本研究提出PsyDraw系统,旨在解决中国留守儿童心理健康筛查的难题,特别是在资源有限的地区。该系统结合多模态语言模型,辅助分析HTP测试,有效识别需要关注的案例,前景乐观。

PsyDraw:一个为留守儿童进行心理健康筛查的多代理多模态系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

研究团队提出了一种新型多模态语言模型,能够同时处理音频和文本输入,并生成相应的动作。该模型统一了人类动作的言语和非言语语言,尤其在数据稀缺情况下展现出优异的动作生成和理解能力。

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

机器之心
机器之心 · 2024-12-18T05:40:04Z

本研究探讨了多模态大型语言模型在传统语言和视觉任务之外的应用,提出了一种将其转化为通用具身智能体的方法。研究表明,跨域数据和在线强化学习对构建通用智能体至关重要,最终模型在新任务上展现出强大的泛化能力。

From Multimodal Large Language Models to Generalist Embodied Agents: Methods and Experiences

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本文探讨了指令模板在多模态语言模型评估和训练中的重要性,提出了一种程序化指令模板生成器,能够生成超过390亿种独特模板组合,显著影响模型性能,强调了模板在训练中的关键作用。

The Importance of Templates: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了一种名为时间线组装器的生成模型,通过自然语言指令简化复杂视频编辑任务,使非专家用户能够轻松操作。研究开发了大型多模态语言模型,并创建了新数据集,验证结果显示该模型在执行复杂指令方面显著优于现有模型。

基于自然语言指令的生成时间线视觉组装

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究提出了MEMO-Bench基准,包含7145幅肖像,旨在评估文本到图像模型和多模态大型语言模型在情感分析中的能力。结果显示,现有模型在生成积极情感方面表现较好,但在细粒度情感识别上仍与人类准确性存在差距。该基准将公开发布以促进研究。

MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models in Human Emotion Analysis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

本文探讨了多模态大型语言模型(VLMs)在视觉与文本信息对齐中的挑战,提出了一种创新的图像标记器,通过字节对编码将结构先验信息融入图像符号,从而显著提升模型的多模态理解能力和可扩展性。同时,研究揭示了视觉标记与文本标记的层次对应关系,推动了多模态系统的可解释性与可控性的发展。

分析视觉符号的语言

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

本文探讨了通过CLIP编码和对比学习提升多模态语言模型(MLLMs)在图像标题生成和分类中的性能,提出了VeCLIP方法,强调数据质量和多样性,显著改善了图像-文本对齐。研究还展示了新模型在多语言图像-文本检索中的有效性,表明视觉表示学习仍需解决。

LLM2CLIP:强大的语言模型解锁更丰富的视觉表征

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码