小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究采用深度强化学习和近端策略优化算法,成功训练出能够通过视觉输入实现专业圈速的赛车驾驶代理,有效解决了紧急情况下的轮胎抓地力控制问题。

Vision-Based Racing Simulation Driving Agent

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

该研究提出了一种新的分布式交叉注意力机制LV-XAttn,旨在降低多模态大语言模型中视觉输入处理的内存需求和通信开销。通过在每个GPU上保留大的键值块并交换较小的查询块,显著减少了通信开销,支持更长的视觉上下文,实验表明速度提升可达5.58倍。

LV-XAttn:多模态大语言模型中长视觉输入的分布式交叉注意力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z
AGUVIS:一种统一的纯视觉框架,可跨平台转变自主 GUI 交互

AGUVIS框架通过纯视觉输入解决了GUI自动化的关键挑战,消除了对文本表示的依赖,提升了跨平台的泛化能力。该模型在基础和推理阶段有效结合,显著提高了任务执行的准确性和效率,成为首个完全自主的视觉智能体。

AGUVIS:一种统一的纯视觉框架,可跨平台转变自主 GUI 交互

实时互动网
实时互动网 · 2024-12-25T02:46:17Z

本研究探讨了大型视觉语言模型在生成视觉内容相关响应时的幻觉问题,提出了一种通过调整视觉输入信息进行视觉对比解码的方法,并验证了其有效性。

探讨视觉对比解码以缓解大型视觉语言模型的幻觉问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究分析多模态大型语言模型的评估问题,指出当前评估可能忽视视觉输入的重要性,并强调大语言模型知识不足对性能的影响。通过改进评估方法和自动知识识别,发现知识增强可以提升性能,显示LLM在MLLM中的关键作用。

理解大型语言模型在多模态评估基准中的作用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

研究了从多模态源中自动生成问题的新问题,并提出了名为MultiQG-TI的解决方案。MultiQG-TI利用图像到文本模型和光学字符识别模型,能够处理视觉输入,并在ScienceQA数据集上表现出优势。实验证实了视觉和文本信号对问题生成的必要性。

将文本提示引入 AI 生成的图像质量评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-27T00:00:00Z

本文讨论了在大型语言模型中引入视觉的趋势,指出了高维视觉输入空间本质上是对抗性攻击的理想介质,以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。研究发现对抗性例子可以打破安全机制并生成有害内容,因此强调了对于安全使用视觉语言模型的紧迫需要,需要进行全面的风险评估,强大的防御措施和实施负责任的工作实践。

Google 巴德对抗图像攻击的鲁棒性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码