小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
沉浸式翻译 immersive translate
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

商汤科技与南洋理工大学推出NEO-unify,重构多模态模型,去除视觉编码器和变分自编码器,实现统一的端到端架构。该模型通过混合变换器架构,提升视觉与语言的理解与生成能力,标志着多模态AI向统一智能体的进化。

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

量子位
量子位 · 2026-03-07T04:39:02Z
当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

OpenBMB推出的MiniCPM-o-4.5模型仅用9B参数实现全模态能力,强调跨模态对齐与推理效率,适合主流GPU部署,具备高性能与轻量化优势。

当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经
HyperAI超神经 · 2026-02-28T06:48:25Z
VLSU:映射人工智能安全的联合多模态理解的局限性

多模态基础模型的安全评估通常将视觉和语言输入分开,忽视了联合解释的风险。我们提出了视觉语言安全理解(VLSU)框架,通过细致的严重性分类和组合分析来评估安全性。研究表明,尽管模型在单一安全信号上表现良好,但在需要联合图像-文本推理时,准确率显著下降,显示出组合推理能力的不足。该框架揭示了当前模型在联合理解方面的弱点,并为未来研究提供了重要的测试平台。

VLSU:映射人工智能安全的联合多模态理解的局限性

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-27T00:00:00Z
多模态大语言模型基础:大语言模型如何处理文本、图像、音频和视频

静态训练数据无法适应快速变化的信息,导致模型只能进行猜测。本文介绍了多模态大语言模型(LLM)的原理,通过将文本、图像和音频转化为统一的数学表示,模型实现了跨模态推理,能够实时理解和响应。

多模态大语言模型基础:大语言模型如何处理文本、图像、音频和视频

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-12-22T16:30:45Z

阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集

机器之心
机器之心 · 2025-12-16T05:26:42Z
VLSU:绘制人工智能安全的联合多模态理解的边界

本文提出了视觉语言安全理解(VLSU)框架,用于系统评估多模态模型的安全性。研究发现,现有模型在图像-文本联合推理时准确率仅为20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以平衡,导致过度屏蔽和拒绝率下降。该框架揭示了模型的理解弱点,为未来研究奠定了基础。

VLSU:绘制人工智能安全的联合多模态理解的边界

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-20T00:00:00Z
Amazon Nova 多模态嵌入模型实战指南

亚马逊云科技推出了Amazon Nova多模态嵌入模型,支持文本、图像、视频和音频的统一嵌入,提升跨模态检索精度,适用于视频检索、图像分类和文档检索等场景,具备高效的语义理解能力,帮助用户从非结构化数据中提取洞见。

Amazon Nova 多模态嵌入模型实战指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-10-31T09:19:59Z
B站多模态精细画质分析模型在 ICCV2025 大赛获得佳绩

B站多媒体实验室在ICCV MIPI Workshop的细粒度图像质量定位国际挑战赛中,提出多模态训练策略,提升综合指标13.5%,获得第二名。实验室专注于视频质量评价与图像处理的协同,应用GRPO算法优化模型,验证了SFT+GRPO的有效性,推动智能视频处理系统的发展。

B站多模态精细画质分析模型在 ICCV2025 大赛获得佳绩

实时互动网
实时互动网 · 2025-10-17T06:17:02Z
MobileCLIP2:改进多模态强化训练

本文介绍了MobileCLIP2模型的改进,采用低延迟和轻量架构,结合多模态强化训练,提升了图像-文本的零-shot准确率。在优化教师模型和数据集后,MobileCLIP2在ImageNet-1k上实现了2.2%的准确率提升,并且延迟表现更佳。

MobileCLIP2:改进多模态强化训练

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z
UniGen:统一多模态理解与生成的增强训练与测试策略

大多数成功的神经网络依赖于监督训练,但需要大量高质量标注数据,成本高昂。我们提出了一种通过改进合成图像的真实性来提升模型在机器学习任务中的准确性的方法。

UniGen:统一多模态理解与生成的增强训练与测试策略

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

机器之心
机器之心 · 2025-09-05T04:59:47Z

DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

机器之心
机器之心 · 2025-09-01T06:14:56Z

多模态后训练反常识:长思维链SFT和RL的协同困境

机器之心
机器之心 · 2025-08-02T12:44:48Z

商汤科技在WAIC 2025论坛推出了「悟能」具身智能平台,标志其进入具身智能领域。新型多模态模型日日新V6.5提升了推理能力,支持感知、导航和交互。商汤通过世界模型与硬件合作,解决数据稀缺问题,推动具身智能发展,形成自循环生态。

具身智能实力派!十年多模态打底,世界模型开路,商汤悟能来了

量子位
量子位 · 2025-07-28T01:40:31Z

Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型

机器之心
机器之心 · 2025-07-07T04:58:59Z

四位华人AI研究员从OpenAI跳槽至Meta,涉及清华、北大、浙大和中科大的校友。这一现象引发了对OpenAI人才流失原因的关注,Meta已挖走至少八位顶尖研究员,OpenAI因此提高薪酬以留住人才。

OpenAI华人AI大牛集体跳槽Meta!清华北大浙大中科大校友各一位,多模态后训练、感知团队负责人全走了

量子位
量子位 · 2025-06-29T01:55:10Z

PP-ChatOCRv4是基于ERNIE 4.5 Turbo的文档关键信息抽取方案,结合OCR与大模型技术,提升信息提取的效率与准确性,适用于多行业的文档处理需求。

多模态融合,极致精度——PP-ChatOCRv4重磅发布,文档关键信息抽取新标准!

百度大脑
百度大脑 · 2025-06-19T11:54:05Z

MiniMax发布了AI超级智能体MiniMax Agent,具备编程和多模态理解能力,支持无缝MCP集成。用户可免费试用,生成多种内容。M1模型已成为员工日常工具,MiniMaxWeeK活动仍在进行中,期待更多成果。

MiniMax AI超级智能体发布!编程/多模态突出,MCP工具无缝集成

量子位
量子位 · 2025-06-19T09:18:55Z

本研究提出了一种新框架,整合阿尔茨海默病的多模态数据,克服传统分析中患者ID匹配的限制,揭示代谢风险因素与tau蛋白异常之间的关系。

使用大型语言模型和知识图谱的阿尔茨海默病多模态整合分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了KnowRecall和VisRecall基准,评估多模态大语言模型在15种语言中对全球地标知识和视觉记忆的一致性。结果表明,现有模型在跨语言一致性方面不足,需要开发更具多语言和文化意识的模型。

跨语言旅行:基准测评多模态大语言模型中的跨语言一致性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码