小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究关注语言多模态模型在多学科讲座理解中的不足,提出Video-MMLU基准,评估90多种模型,揭示其认知局限,并探讨视觉标记数量对表现的影响。

Video Multimodal Learning Understanding Benchmark: A Large-Scale Cross-Disciplinary Lecture Understanding Benchmark

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-20T00:00:00Z

本研究提出了DivPrune方法,旨在解决大型多模态模型中视觉标记过多的问题。该方法通过最大化标记多样性来减少冗余,提高模型的代表性。实验结果表明,DivPrune在多个数据集上实现了高准确率,并显著降低了延迟和GPU内存使用。

DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本研究提出了一种新方法——每层每头视觉标记修剪(PLPHP),旨在提高大型视觉语言模型的推理效率。该方法通过动态调整视觉标记保留率,显著提升解码速度18%,减少缓存大小,同时保持较小的性能损失。

PLPHP:用于高效大型视觉语言模型的每层每头视觉标记修剪

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出DART修剪方法,解决多模态大语言模型中视觉标记的计算开销问题。实验结果表明,DART在信息损失较小的情况下,能够修剪88.9%的视觉标记,并显著提高处理速度。

停止寻找多模态语言模型中的重要标记:重复性更重要

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究探讨视觉标记数量与视觉语言模型性能之间的关系,提出了一种新架构以减少标记数量并提升模型性能,从而推动更高效的视觉语言模型的开发。

视觉语言模型中的标记空间弱扩展能力:来自大型视觉语言模型的观察

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本研究针对视频分析中高质量数据集不足和长视频处理效率低的问题,提出了大型合成数据集和动态视觉标记压缩架构,取得了先进的研究成果并建立了新基准。

动态视觉语言模型:视频大语言模型的简单动态视觉标记压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究提出ShowUI模型,解决语言代理在理解用户界面视觉方面的局限。该模型通过UI引导的视觉标记选择,实现高效的GUI任务管理,零-shot屏幕定位准确率达到75.1%,并减少33%的冗余视觉标记。

ShowUI:一个面向图形用户界面的视觉-语言-动作模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

该研究提出了一种粗到细的视觉标记压缩方法,有效解决了高分辨率图像带来的视觉标记数量激增和计算成本增加的问题,并在多个数据集上验证了其有效性。

FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本研究提出了一种轻量级视频模型LITE,旨在提高视频理解的效率。通过分析视觉标记的价值分布,LITE能够有效选择少量高价值标记,超越现有方法。

高效视频理解的视觉标记原理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

研究发现,残差型大型语言模型在生物医学图像任务中作为编码器具有意外的有效性。该方法利用预训练的大型语言模型中的冻结变压器块作为创新编码器层,可以直接处理视觉标记,并提升生物医学图像应用的性能。该研究在MedMNIST-2D和3D的大规模标准数据集上取得了卓越的性能,刷新了最新的技术结果。这项工作开拓了大型语言模型在生物医学图像领域的应用新途径。

LLaMA-Reg: 使用 LLaMA 2 进行非监督式医学图像配准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-29T00:00:00Z

该研究介绍了一种新颖的多模态模型,通过叠加视觉标记在 RGB 图像上,实现了对特定区域的理解,并在区域理解任务上取得了最先进的性能。研究还提出了ViP-Bench,一个综合评估模型在理解多个维度上的视觉提示能力的基准,为未来的研究提供了可能。

VRPTEST:大型多模态模型中视觉引导提示的评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-07T00:00:00Z
ColPali模型的工作原理

ColPali是一种多模态文档检索模型,能够处理PDF、图像和扫描文档。它通过将文档图像分割为空间补丁,生成视觉标记,直接匹配查询与文档的视觉区域,无需OCR。该模型结合视觉编码器和语言模型,优化文档检索,支持文本与视觉内容的精确匹配。

ColPali模型的工作原理

Qdrant - Vector Database
Qdrant - Vector Database · 1970-01-01T08:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码