小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

机器之心
机器之心 · 2025-08-21T13:22:38Z

机器之心数据服务已上线,提供高效稳定的数据获取,简化数据爬取流程。

多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷

机器之心
机器之心 · 2025-07-28T03:10:49Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

充分激发模态协作,MokA量身打造MLLM微调新范式

机器之心
机器之心 · 2025-06-29T10:58:47Z

CVPR2025提出的Video-Bench框架通过模拟人类认知,评估AI生成视频的质量与美学,解决了视频与文本对齐的问题。该框架采用链式查询和少样本评分技术,显著提高了评估准确性,超越了传统方法。

CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分

量子位
量子位 · 2025-06-12T08:59:43Z

本研究提出了一种“基于确定性的自适应推理”(CAR)框架,旨在提高大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的推理效率。CAR通过动态调整简短回答与长形式推理,提升了简单任务的性能,并在多模态基准测试中展现了更好的准确性和效率平衡。

Not Just Prolonged Reasoning: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z
统一细粒度感知!北大&阿里提出UFO:无需SAM,16个token让MLLM实现精准分割

UFO是一种新型多模态大模型,通过特征检索实现细粒度视觉感知,无需额外解码器,表现优异,支持文本输出,简化任务复杂性,提升性能。

统一细粒度感知!北大&阿里提出UFO:无需SAM,16个token让MLLM实现精准分割

机器之心
机器之心 · 2025-03-25T02:23:42Z

本研究提出了一种新的知识解耦协同学习方法(KDSL),有效解决电子商务中少样本多模态对话意图识别的干扰问题。在淘宝数据集上,该方法的F1分数提升了6.37%和6.28%,验证了其有效性。

Knowledge Decoupling Collaborative Learning: A Collaborative Approach for Few-Shot Multimodal Dialogue Intention Recognition Based on MLLM

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z
什么是多模态大语言模型(MLLM)?[译]

多模态大语言模型(MLLM)结合语言、视觉和音频等信息处理能力,近年来在计算机视觉领域取得显著进展,广泛应用于医疗和自动驾驶等场景。顶尖模型如GPT-4o和Apple Ferret展现出强大的理解与生成能力,但在高难度任务中仍需提升。

什么是多模态大语言模型(MLLM)?[译]

宝玉的分享
宝玉的分享 · 2025-02-10T05:32:39Z

本研究提出了一种集体蒙特卡罗树搜索(CoMCTS)方法,以提高多模型大语言模型(MLLM)的推理效率。实验结果显示,基于CoMCTS训练的Mulberry模型在基准任务中表现优异,具有良好的应用前景。

Mulberry: Empowering MLLM for O1-Level Reasoning and Reflection through Collective Monte Carlo Tree Search

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了

研究者们计划在2025年实现AI领域的突破,特别是在空间思维方面。他们提出了VSI-Bench,这是一个基于视频的基准测试,用于评估多模态大语言模型(MLLM)在视觉空间智能方面的表现。尽管与人类相比仍有差距,但模型展现出新兴的视觉空间智能。研究指出,空间推理是MLLM的主要瓶颈,未来的AI助手需要更好地理解和导航空间。

李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了

机器之心
机器之心 · 2024-12-23T04:59:05Z

本研究提出了新模型CCExpert,结合差异感知集成模块与高质量数据集CC-Foundation,显著提升了遥感图像变化检测的性能,展现出巨大潜力。

CC专家:通过差异感知融合和基础数据集推进遥感变化字幕的MLLM能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

本文介绍了一种新型计算机辅助设计生成系统CAD-MLLM,能够根据文本、图像和点云等多模态输入生成CAD模型。研究表明,CAD-MLLM在模型质量和鲁棒性方面优于现有方法,具有重要的应用价值。

CAD-MLLM:统一多模态条件下的计算机辅助设计生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z
Mini-InternVL: 多模态大语言模型 (MLLM) 1B 至 4B 系列,仅用 5%的参数就能实现 90% 的性能

多模态大型语言模型(MLLM)迅速发展,结合视觉与语言处理,提升数据理解能力。Mini-InternVL系列轻量级MLLM通过减少参数,实现高效的多模态理解,适用于自动驾驶和医学成像等领域,表现出色。该模型在多个基准测试中展现出强大的适应性和性能,为资源有限的环境提供了可扩展的解决方案。

Mini-InternVL: 多模态大语言模型 (MLLM) 1B 至 4B 系列,仅用 5%的参数就能实现 90% 的性能

实时互动网
实时互动网 · 2024-10-30T03:20:12Z
CMU 研究人员发布 Pangea-7B:适用于 39 种语言的完全开放多模态大型语言模型 MLLM

尽管多模态大型语言模型(MLLM)在英语上取得进展,但全球语言和文化的代表性仍不足。卡内基梅隆大学推出的PANGEA模型,使用包含39种语言的600万个样本的数据集PANGEAINS进行训练。评估结果显示,PANGEA在多语言任务上优于现有模型,并在多元文化理解方面表现突出。该模型的开源有望提升跨语言和文化的公平性与可访问性。

CMU 研究人员发布 Pangea-7B:适用于 39 种语言的完全开放多模态大型语言模型 MLLM

实时互动网
实时互动网 · 2024-10-23T03:31:59Z
Ovis 1.6:一种开源多模态大型语言模型 (MLLM) 架构,旨在结构化地对齐视觉和文本嵌入

人工智能中的多模态学习迅速发展,Ovis 1.6 通过视觉嵌入表对齐视觉和文本数据,解决嵌入不一致问题。在多项测试中表现优异,展示了其在复杂任务中的潜力。

Ovis 1.6:一种开源多模态大型语言模型 (MLLM) 架构,旨在结构化地对齐视觉和文本嵌入

实时互动网
实时互动网 · 2024-09-30T01:31:55Z

本文提出了一种基于Transformer的联合注意力估计方法,通过引入上下文线索和模拟属性之间的相互作用,编码低维特征。通过预测像素级联合注意力的置信度热力图,改善了热力图准确性,并结合图像的普通注意力估计进一步提高了联合注意力估计。在定量实验中表现更好。

最重要人物定位与群体情境理解的 MIP-GAF:一种 MLLM 注释基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

UltraPixel是一种新型架构,通过级联扩散模型生成多个分辨率的图像,保持计算效率。利用低分辨率图像的语义丰富表示引导高分辨率图像生成,降低复杂性。通过减少数据需求实现快速训练,生成高分辨率图像,并展现出卓越性能。

HiPrompt:无调优的高分辨率生成与分层 MLLM 提示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

本研究介绍了E5-V框架,通过调整多模态大型语言模型实现多模态嵌入表征,有效地弥合了不同类型输入之间的模态差距,展现出强大性能。实验证明E5-V在多项任务上的有效性,同时降低了训练成本。

EE-MLLM:一种数据高效和计算高效的多模态大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

面部情感行为分析对于理解人类心理状态很重要。研究者引入了两个FABA任务的数据集和基准,以及一个新的MLLM“EmoLA”。实验结果显示,加入面部先验专家模块和低秩适应模块可以提高性能。EmoLA在FABA-Bench上表现最好,在常用的FABA数据集上与最先进模型竞争力强。

EMO-LLaMA:通过指令调优增强面部情感理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

该论文介绍了RAVEN,一个多任务的检索增强视觉语言模型框架,通过任务特定微调,在图像字幕和VQA任务中表现出有效的检索能力。实验结果表明,该模型在MSCOCO上提高了1个CIDEr,在NoCaps上提高了4个CIDEr,在特定的VQA问题类型上提高了近3%的准确率。将RAG方法应用于视觉语言模型是有效的,标志着多模态学习迈向更高效和可访问的方向。

MLLM 是一种强大的再排序模型:通过知识增强的再排序与噪声注入训练推进多模态检索增强生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-31T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码