小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本报告评估了通用AI的能力与风险,指出AI能力迅速提升但不稳定,存在恶意使用、功能异常和系统性风险。技术和制度挑战使风险管理复杂,需多层防护。AI在多模态任务中表现出色,但在长期任务和现实世界交互中仍面临挑战。未来发展依赖算力、算法和数据的提升,专家对2030年前AI能力的预测存在分歧。

【公益译文】2026年国际AI安全报告(一)

绿盟科技技术博客
绿盟科技技术博客 · 2026-04-23T06:34:26Z
开卷视觉编程!GLM-5V-Turbo上线,一张草图搞定前端

GLM-5V-Turbo是一款新推出的视觉编程模型,能够根据草图生成前端代码并解读复杂图表。它在多模态任务中表现出色,支持网页浏览和报告生成,适合产品经理和学生使用。该模型通过多项技术升级,增强了视觉理解和任务协同能力。

开卷视觉编程!GLM-5V-Turbo上线,一张草图搞定前端

量子位
量子位 · 2026-04-02T06:28:33Z
LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代

美团发布了LongCat-Flash-Omni模型,参数达到5600亿,支持低延迟音视频交互,表现优异,解决了推理延迟问题,适用于多种应用场景。

LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代

美团技术团队
美团技术团队 · 2025-11-03T00:00:00Z
解密小米MiMo-VL:7B小模型如何实现多模态SOTA性能

小米发布了MiMo-VL-7B视觉语言模型技术报告,展示其在多模态任务中的优异表现,尤其是在复杂推理和GUI交互方面。该模型采用三模块架构,经过四阶段预训练,并结合混合强化学习,显著提升了推理深度和用户体验。开源生态包括完整权重和评测框架,为开源社区树立了新标杆。

解密小米MiMo-VL:7B小模型如何实现多模态SOTA性能

我爱自然语言处理
我爱自然语言处理 · 2025-05-30T07:13:14Z
OpenAI GPT-4.1 API 发布及简介

OpenAI推出了GPT-4.1,性能显著提升,支持处理100万个token,适用于代码生成、长文档分析和多模态任务。该模型家族包括GPT-4.1、mini和nano,以满足不同需求。

OpenAI GPT-4.1 API 发布及简介

我爱自然语言处理
我爱自然语言处理 · 2025-04-15T03:16:12Z

本研究提出PAVE框架,旨在提升视频大语言模型在新任务适应中的表现。通过轻量级适配器“补丁”,PAVE有效调整预训练模型以应对多模态任务,实验结果显示其在音视频问答和3D推理等任务上显著提升性能,且计算成本极低。

PAVE: Patching and Adapting Video Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z
Qwen2.5-VL-32B: 更聪明、更轻量!

Qwen2.5-VL-32B模型在社区中获得积极反馈,具备更符合人类偏好的回复、提升的数学推理能力和图像理解能力,尤其在多模态任务中表现优越。未来将专注于复杂推理任务的研究。

Qwen2.5-VL-32B: 更聪明、更轻量!

Blog on Qwen
Blog on Qwen · 2025-03-23T16:00:04Z

本研究提出了一种新方法——携带视觉条件(TVC),旨在解决多模态任务中视觉信息关注度下降的问题。TVC策略优化了推理过程中的视觉输入使用,提升了多模态推理系统的表现,平均性能提高了3.4%。

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long Chain Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z
2nd CEFSW Workshop 2025征稿

基础模型具备强大的认知计算能力,适合云端部署;专用模型则轻量化,适合资源有限的终端。目前云中心学习在实时性和个性化方面存在不足,研究者关注两者的协作。ICMR 2025研讨会将探讨基础与专用模型的协同演进,促进多模态任务理解,汇聚各领域专家推动研究与开发。

2nd CEFSW Workshop 2025征稿

机器之心
机器之心 · 2025-03-03T08:42:00Z

本研究提出了一种模块化视觉对比解码(MVCD)框架,旨在提升大型语言模型(LLMs)在多模态任务中的表现。MVCD通过利用LLMs的上下文学习能力,有效提高了视觉感知能力和模型准确性,展现出重要的应用潜力。

Enhancing Visual Capabilities of Language Models: Visual Contrastive Decoding for Multimodal Reasoning in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一种新方法,缩小了无编码视觉语言模型与编码模型之间的性能差距。通过分解和分层关联视觉与语言,EVEv2.0在数据效率和视觉推理能力上表现优越,展现了无编码架构在多模态任务中的潜力。

EVEv2:改进的无编码视觉语言模型基线

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z
谷歌发布实验性AI推理模型

谷歌推出了实验性AI推理模型Gemini 2.0 Flash Thinking Experimental,旨在处理编程、数学和物理等多模态任务。该模型通过分解提示和分析上下文生成响应,但推理能力有时不一致。它支持最多32,000个标记的输入,输出限制为8,000个标记,响应时间较慢。尽管存在局限性,该模型标志着谷歌在推理AI领域的探索。

谷歌发布实验性AI推理模型

InfoQ
InfoQ · 2025-01-21T10:19:00Z

MiniMax推出了新模型MiniMax-01,支持400万token的超长上下文,性能接近DeepSeek-v3和GPT-4o。该模型采用Lightning Attention架构,显著提升处理效率。在多个基准测试中,MiniMax-Text-01在长上下文理解方面表现突出,而MiniMax-VL-01则专注于多模态任务,展现强大处理能力。该模型已在Hailuo AI上免费试用。

MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o

量子位
量子位 · 2025-01-15T04:29:43Z
数据不够致Scaling Law撞墙?CMU和DeepMind新方法可让VLM自己生成记忆

AI 社区讨论 Scaling Law 遇到瓶颈,因高质量数据即将耗尽。CMU 和 DeepMind 提出的 ICAL 方法利用低质量数据和反馈,帮助 LLM 和 VLM 创建有效提示,改善决策。ICAL 强调认知抽象,提升模型在新任务中的表现,实验表明其在多模态任务中优于传统方法,减少对专家示例的依赖。

数据不够致Scaling Law撞墙?CMU和DeepMind新方法可让VLM自己生成记忆

机器之心
机器之心 · 2025-01-03T03:57:51Z
LlamaFusion:语言模型如何仅通过0.1%的参数变化生成图像

LlamaFusion是一种新方法,通过扩散模型将语言模型与图像生成结合,能够在不大量重训练的情况下适应现有语言模型,提升多模态任务的性能。

LlamaFusion:语言模型如何仅通过0.1%的参数变化生成图像

DEV Community
DEV Community · 2024-12-22T07:02:55Z

本研究提出FedPIA框架,旨在医疗等隐私环境中有效微调大型视觉-语言模型。通过适配器的置换和整合,优化联邦学习与参数高效微调的结合,显著提升模型在多模态任务中的表现,超越现有基准方法。

FedPIA: Permuting and Integrating Adapters Using Wasserstein Barycenters for Finetuning Foundation Models in Multi-Modal Federated Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

AIxiv专栏促进学术交流,Florence-VL模型利用生成式视觉编码器Florence-2,克服传统视觉编码器的局限,提供多层次视觉特征,提升多模态任务的表现。

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

机器之心
机器之心 · 2024-12-18T05:31:28Z
谷歌DeepMind发布Gemini 2.0:人工智能性能与多模态集成的飞跃

谷歌DeepMind推出Gemini 2.0,处理速度是Gemini 1.5 Pro的两倍,支持复杂的多模态任务。该模型基于JAX/XLA框架,具备深度研究等新功能,适用于项目Astra和Mariner。Gemini 2.0强调安全性,集成隐私保护机制,社区反馈积极。

谷歌DeepMind发布Gemini 2.0:人工智能性能与多模态集成的飞跃

InfoQ
InfoQ · 2024-12-12T19:55:00Z

本研究提出了一种可变视觉位置编码(V2PE)方法,旨在提升视觉-语言模型处理长上下文的能力,特别适用于视频和高分辨率图像等任务。实验结果表明,该方法在多模态任务中表现优异,具有广泛的应用潜力。

V2PE: Improving the Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究提出了一种新型的双重通用对抗扰动(Doubly-UAP),旨在同时欺骗视觉-语言模型的图像和文本输入。该方法通过优化模型中的注意力机制,实现了高效的攻击成功率,并在多模态任务中展现出优越性能和强鲁棒性。

Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models with a Single Perturbation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码