小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测

美团LongCat提出的DiNA原生多模态架构将图像、语音和文本统一为离散Token,突破了传统模型的局限。该模型通过共享参数和机制,实现了更高效的理解与生成,推动了多模态AI的发展。

美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测

量子位
量子位 · 2026-04-03T06:24:01Z
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

商汤科技与南洋理工大学推出NEO-unify,重构多模态模型,去除视觉编码器和变分自编码器,实现统一的端到端架构。该模型通过混合变换器架构,提升视觉与语言的理解与生成能力,标志着多模态AI向统一智能体的进化。

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

量子位
量子位 · 2026-03-07T04:39:02Z
当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

OpenBMB推出的MiniCPM-o-4.5模型仅用9B参数实现全模态能力,强调跨模态对齐与推理效率,适合主流GPU部署,具备高性能与轻量化优势。

当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经
HyperAI超神经 · 2026-02-28T06:48:25Z
多模态大语言模型基础:大语言模型如何处理文本、图像、音频和视频

静态训练数据无法适应快速变化的信息,导致模型只能进行猜测。本文介绍了多模态大语言模型(LLM)的原理,通过将文本、图像和音频转化为统一的数学表示,模型实现了跨模态推理,能够实时理解和响应。

多模态大语言模型基础:大语言模型如何处理文本、图像、音频和视频

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-12-22T16:30:45Z
阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集

机器之心
机器之心 · 2025-12-16T05:26:42Z
结合多模态提示的统一开放世界分割

COSINE是一种开放世界图像分割模型,结合了开放词汇分割和上下文分割,支持多种输入模式(如图像和文本)。该模型利用基础模型的表示能力,能够准确分割特定概念,提升开放世界感知能力。实验结果表明,该方法在多种分割任务中表现有效。

结合多模态提示的统一开放世界分割

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-16T00:00:00Z
Amazon Nova 多模态嵌入模型实战指南

亚马逊云科技推出了Amazon Nova多模态嵌入模型,支持文本、图像、视频和音频的统一嵌入,提升跨模态检索精度,适用于视频检索、图像分类和文档检索等场景,具备高效的语义理解能力,帮助用户从非结构化数据中提取洞见。

Amazon Nova 多模态嵌入模型实战指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-10-31T09:19:59Z
B站多模态精细画质分析模型在 ICCV2025 大赛获得佳绩

B站多媒体实验室在ICCV MIPI Workshop的细粒度图像质量定位国际挑战赛中,提出多模态训练策略,提升综合指标13.5%,获得第二名。实验室专注于视频质量评价与图像处理的协同,应用GRPO算法优化模型,验证了SFT+GRPO的有效性,推动智能视频处理系统的发展。

B站多模态精细画质分析模型在 ICCV2025 大赛获得佳绩

实时互动网
实时互动网 · 2025-10-17T06:17:02Z
MobileCLIP2:改进的多模态强化训练

MobileCLIP2是一种改进的多模态强化训练模型,具有低延迟和轻量架构。通过优化教师模型和标题生成器,MobileCLIP2在ImageNet-1k上实现了2.2%的准确率提升,性能优于现有模型,适用于移动设备并支持快速生成新数据集。

MobileCLIP2:改进的多模态强化训练

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z
UniGen:统一多模态理解与生成的增强训练与测试策略

UniGen是一种统一的多模态大语言模型,具备图像理解和生成能力。通过多阶段预训练和监督微调,UniGen引入了链式思维验证(CoT-V)策略,显著提升了图像生成质量。在多个基准测试中,UniGen表现优异,最终得分为0.78(GenEval)和85.19(DPG-Bench),为未来研究指明了方向。

UniGen:统一多模态理解与生成的增强训练与测试策略

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

机器之心
机器之心 · 2025-09-05T04:59:47Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

机器之心
机器之心 · 2025-09-01T06:14:56Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

多模态后训练反常识:长思维链SFT和RL的协同困境

机器之心
机器之心 · 2025-08-02T12:44:48Z

商汤科技在WAIC 2025论坛推出了「悟能」具身智能平台,标志其进入具身智能领域。新型多模态模型日日新V6.5提升了推理能力,支持感知、导航和交互。商汤通过世界模型与硬件合作,解决数据稀缺问题,推动具身智能发展,形成自循环生态。

具身智能实力派!十年多模态打底,世界模型开路,商汤悟能来了

量子位
量子位 · 2025-07-28T01:40:31Z

机器之心数据服务现已上线,提供高效、稳定的数据获取服务,简化数据爬取流程。

Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型

机器之心
机器之心 · 2025-07-07T04:58:59Z

四位华人AI研究员从OpenAI跳槽至Meta,涉及清华、北大、浙大和中科大的校友。这一现象引发了对OpenAI人才流失原因的关注,Meta已挖走至少八位顶尖研究员,OpenAI因此提高薪酬以留住人才。

OpenAI华人AI大牛集体跳槽Meta!清华北大浙大中科大校友各一位,多模态后训练、感知团队负责人全走了

量子位
量子位 · 2025-06-29T01:55:10Z

PP-ChatOCRv4是基于ERNIE 4.5 Turbo的文档关键信息抽取方案,结合OCR与大模型技术,提升信息提取的效率与准确性,适用于多行业的文档处理需求。

多模态融合,极致精度——PP-ChatOCRv4重磅发布,文档关键信息抽取新标准!

百度大脑
百度大脑 · 2025-06-19T11:54:05Z

MiniMax发布了AI超级智能体MiniMax Agent,具备编程和多模态理解能力,支持无缝MCP集成。用户可免费试用,生成多种内容。M1模型已成为员工日常工具,MiniMaxWeeK活动仍在进行中,期待更多成果。

MiniMax AI超级智能体发布!编程/多模态突出,MCP工具无缝集成

量子位
量子位 · 2025-06-19T09:18:55Z

本研究提出了一种新框架,整合阿尔茨海默病的多模态数据,克服传统分析中患者ID匹配的限制,揭示代谢风险因素与tau蛋白异常之间的关系。

使用大型语言模型和知识图谱的阿尔茨海默病多模态整合分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了新的基准KnowRecall和VisRecall,用于评估多模态大语言模型在不同语言间的一致性。KnowRecall关注全球地标的文化和历史知识一致性,VisRecall检验视觉记忆一致性。实验结果显示,现有模型在跨语言一致性方面仍存在困难,需要开发更具多语言和文化意识的模型。

跨语言旅行:基准测评多模态大语言模型中的跨语言一致性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码