小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
具身智能资源汇总:机器人学习数据集,在线体验世界建模模型,英伟达/字节/小米等最新研究论文……

本文探讨了具身智能的研究及其在物理世界中的应用,强调通过与环境互动形成智能。推荐了一系列高质量数据集、在线教程和论文,涵盖机器人学习、视觉问答等领域,以支持学习与研究。

具身智能资源汇总:机器人学习数据集,在线体验世界建模模型,英伟达/字节/小米等最新研究论文……

HyperAI超神经
HyperAI超神经 · 2026-01-23T04:03:34Z
Jina-VLM:小型多语言视觉语言模型

jina-vlm是一个具有2.4B参数的视觉语言模型,支持29种语言的视觉问答,性能优越,适合消费级硬件。它结合了SigLIP2视觉编码器和Qwen3语言骨干,在多语言理解和视觉推理方面表现出色,并通过高效的注意力池化连接器减少视觉标记数量,保持多语言能力。

Jina-VLM:小型多语言视觉语言模型

Jina AI
Jina AI · 2025-12-04T18:57:53Z

字节与南洋理工大学的研究通过强化学习优化了多模态模型的搜索策略,实现按需搜索,减少了30%的搜索次数并提高了准确性。MMSearch-R1系统在视觉问答任务中表现出色,增强了模型自主获取信息的能力,为多模态智能体的发展奠定了基础。

多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

量子位
量子位 · 2025-07-09T05:36:01Z
您应该为您的应用选择哪些视觉语言模型

视觉语言模型(VLMs)是多模态AI的重要分支,能够处理文本和图像,执行描述、搜索和生成等任务。当前流行的VLM包括OpenAI的GPT-4o、Meta的Llama 4和Google的Gemini 2.5 Flash。评估VLM性能的方法有图像描述和视觉问答,常用数据集包括LAION-5B、VQA和Visual Genome。尽管VLM功能强大,但仍面临偏见和成本等挑战。

您应该为您的应用选择哪些视觉语言模型

The New Stack
The New Stack · 2025-06-23T18:00:42Z
Peekaboo MCP – 为AI代理提供闪电般快速的macOS屏幕截图

Peekaboo是一个专为macOS设计的MCP服务器,允许AI代理捕获应用程序或系统的屏幕截图,并通过本地或远程AI模型进行视觉问答。它支持模糊窗口匹配和视觉模型选择,旨在提升效率和保护隐私,设计简洁,帮助代理更好地完成任务。

Peekaboo MCP – 为AI代理提供闪电般快速的macOS屏幕截图

Peter Steinberger
Peter Steinberger · 2025-06-07T11:00:00Z

本研究提出了一种多模态辩论框架,旨在解决大型语言模型的监督问题。该框架在视觉问答任务中优于单一专家模型,提升了视觉-语言模型的推理能力。

Enhancing Reasoning through Debate: An Unsupervised Multimodal Approach

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种新的多模态任务——视觉问答(VoQA),要求模型根据图像中的视觉问题进行理解和回答。通过引入监督微调策略,显著提升了模型的推理能力和对复杂场景的理解。

视觉问答:仅基于视觉的问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
UniME:多语言大模型在通用多模态嵌入中超越CLIP

UniME框架通过文本知识蒸馏和困难负样本增强,克服了CLIP在多模态嵌入中的局限性,提升了图文检索和视觉问答的性能,在多个基准测试中表现优异,证明了其在复杂应用中的有效性。

UniME:多语言大模型在通用多模态嵌入中超越CLIP

DEV Community
DEV Community · 2025-04-30T09:17:49Z

本研究提出了一种基于分割符合预测框架的方法,旨在减轻大型视觉语言模型在视觉问答任务中的虚假内容问题。该方法通过动态阈值标定和跨模态一致性验证,在用户定义的风险水平下构建具有统计保证的预测集,适用于医疗和自动化系统等安全关键领域。

基于归纳符合预测的大型视觉语言模型预测集的数据驱动标定

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-24T00:00:00Z

本研究提出了一种多模态仇恨检测框架,能够识别恶意表情包,结合OCR、字幕生成和视觉问答等技术,有效提取复杂的恶意信号,实验结果显示其准确性优于现有模型。

Detecting and Understanding Hateful Content in Memes Through Captioning and Visual Question-Answering

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z

本研究提出了一种查询无关视觉攻击(QAVA),旨在针对大规模视觉语言模型在视觉问答任务中的脆弱性,生成稳健的对抗样本,从而提高在未知问题下的攻击有效性和效率。

QAVA: Query-Agnostic Visual Attack on Large-Scale Vision-Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本研究提出了一种名为开放式视觉拼图生成(OVPG)的动态评估框架PuzzleBench,旨在解决现有评估基准静态且易受污染的问题。该框架自动生成多样化的评估数据,包含11840个视觉问答样本,以支持大型多模态模型在视觉识别、逻辑推理和上下文理解等领域的评估。

PuzzleBench: A Comprehensive Dynamic Evaluation Framework for Large Multimodal Models in Puzzle Solving

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本文提出了一种新颖的多模态检索增强生成框架MMKB-RAG,旨在解决大型语言模型在生成最新信息时的局限性和准确性风险。实验结果表明,该方法在视觉问答任务中显著提升了性能和鲁棒性。

Multi-Modal Knowledge-Driven Retrieval-Augmented Generation Framework MMKB-RAG

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究探讨了认知神经科学在自然语言处理中的应用,特别是眼动追踪信号的整合。通过用户中心的认知信号,提出了一种有效的数据增强方法,提升了视觉问答任务的表现,并减少了多模态大语言模型中的幻觉现象。

Integrating Cognitive Processing Signals into Language Models: A Review of Progress, Applications, and Future Directions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-09T00:00:00Z
推理延展到真实物理世界,英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1

英伟达推出的Cosmos-Reason1模型专注于物理常识推理,解决视觉问答中的最佳答案缺失问题。该模型通过多阶段训练显著提升物理推理能力,能够拒绝不明确的选项,适用于自动驾驶等实际场景。

推理延展到真实物理世界,英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1

机器之心
机器之心 · 2025-03-25T04:38:18Z

本研究提出了一种名为“真相透镜”的无训练框架,旨在提升深度伪造检测的可解释性。通过将检测任务转化为视觉问答,并结合视觉语言模型,增强了对图像真实性的识别与解释能力,从而提高用户信任。

Truth Lens: A Untrained Paradigm for Deepfake Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究提出了VisualWebInstruct方法,通过网络搜索创建了一个多模态指令数据集,涵盖数学、物理、金融等多个学科。利用30,000张种子图像,构建了约90万对问答对,其中40%为视觉问答对。经过微调的模型在复杂推理任务中表现显著提升,证明该数据集有效提升了视觉语言模型的推理能力。

VisualWebInstruct: Scaling Up Multimodal Instruction Data through Web Search

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

本研究提出了BioD2C框架,旨在解决生物医学视觉问答模型在复杂任务中的多模态语义对齐不足问题。通过双层语义一致性约束,该框架提升了模型的视觉特征学习能力,并在新数据集BioVGQ上训练,展现出优异的性能和适应性。

BioD2C: A Dual-Level Semantic Consistency Constraint Framework for Biomedical Visual Question Answering

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本文研究了视觉问答(VQA)中的数据集偏见、模型复杂性和常识推理问题。通过比较五种先进的VQA模型,提出了各自独特的方法,以提升模型的鲁棒性和实用性。

Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出了PitVQA++和向量矩阵低秩适应方法,以解决手术视觉问答中的数据集有限、过拟合和灾难性遗忘问题,显著提升了模型在相关数据集上的性能。

PitVQA++: Vector-Matrix Low-Rank Adaptation for Open-Ended Visual Question Answering in Pituitary Surgery

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码