小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI
多模态大语言模型基础:大语言模型如何处理文本、图像、音频和视频

静态训练数据无法适应快速变化的信息,导致模型只能进行猜测。本文介绍了多模态大语言模型(LLM)的原理,通过将文本、图像和音频转化为统一的数学表示,模型实现了跨模态推理,能够实时理解和响应。

多模态大语言模型基础:大语言模型如何处理文本、图像、音频和视频

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-12-22T16:30:45Z

阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集

机器之心
机器之心 · 2025-12-16T05:26:42Z
VLSU:绘制人工智能安全的联合多模态理解的边界

本文提出了视觉语言安全理解(VLSU)框架,用于系统评估多模态模型的安全性。研究发现,现有模型在图像-文本联合推理时准确率仅为20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以平衡,导致过度屏蔽和拒绝率下降。该框架揭示了模型的理解弱点,为未来研究奠定了基础。

VLSU:绘制人工智能安全的联合多模态理解的边界

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-20T00:00:00Z
Amazon Nova 多模态嵌入模型实战指南

亚马逊云科技推出了Amazon Nova多模态嵌入模型,支持文本、图像、视频和音频的统一嵌入,提升跨模态检索精度,适用于视频检索、图像分类和文档检索等场景,具备高效的语义理解能力,帮助用户从非结构化数据中提取洞见。

Amazon Nova 多模态嵌入模型实战指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-10-31T09:19:59Z
B站多模态精细画质分析模型在 ICCV2025 大赛获得佳绩

B站多媒体实验室在ICCV MIPI Workshop的细粒度图像质量定位国际挑战赛中,提出多模态训练策略,提升综合指标13.5%,获得第二名。实验室专注于视频质量评价与图像处理的协同,应用GRPO算法优化模型,验证了SFT+GRPO的有效性,推动智能视频处理系统的发展。

B站多模态精细画质分析模型在 ICCV2025 大赛获得佳绩

实时互动网
实时互动网 · 2025-10-17T06:17:02Z
MobileCLIP2:改进多模态强化训练

本文介绍了MobileCLIP2模型的改进,采用低延迟和轻量架构,结合多模态强化训练,提升了图像-文本的零-shot准确率。在优化教师模型和数据集后,MobileCLIP2在ImageNet-1k上实现了2.2%的准确率提升,并且延迟表现更佳。

MobileCLIP2:改进多模态强化训练

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z
UniGen:统一多模态理解与生成的增强训练与测试策略

大多数成功的神经网络依赖于监督训练,但需要大量高质量标注数据,成本高昂。我们提出了一种通过改进合成图像的真实性来提升模型在机器学习任务中的准确性的方法。

UniGen:统一多模态理解与生成的增强训练与测试策略

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

机器之心
机器之心 · 2025-09-05T04:59:47Z

DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

机器之心
机器之心 · 2025-09-01T06:14:56Z

多模态后训练反常识:长思维链SFT和RL的协同困境

机器之心
机器之心 · 2025-08-02T12:44:48Z

商汤科技在WAIC 2025论坛推出了「悟能」具身智能平台,标志其进入具身智能领域。新型多模态模型日日新V6.5提升了推理能力,支持感知、导航和交互。商汤通过世界模型与硬件合作,解决数据稀缺问题,推动具身智能发展,形成自循环生态。

具身智能实力派!十年多模态打底,世界模型开路,商汤悟能来了

量子位
量子位 · 2025-07-28T01:40:31Z

Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型

机器之心
机器之心 · 2025-07-07T04:58:59Z

四位华人AI研究员从OpenAI跳槽至Meta,涉及清华、北大、浙大和中科大的校友。这一现象引发了对OpenAI人才流失原因的关注,Meta已挖走至少八位顶尖研究员,OpenAI因此提高薪酬以留住人才。

OpenAI华人AI大牛集体跳槽Meta!清华北大浙大中科大校友各一位,多模态后训练、感知团队负责人全走了

量子位
量子位 · 2025-06-29T01:55:10Z

PP-ChatOCRv4是基于ERNIE 4.5 Turbo的文档关键信息抽取方案,结合OCR与大模型技术,提升信息提取的效率与准确性,适用于多行业的文档处理需求。

多模态融合,极致精度——PP-ChatOCRv4重磅发布,文档关键信息抽取新标准!

百度大脑
百度大脑 · 2025-06-19T11:54:05Z

MiniMax发布了AI超级智能体MiniMax Agent,具备编程和多模态理解能力,支持无缝MCP集成。用户可免费试用,生成多种内容。M1模型已成为员工日常工具,MiniMaxWeeK活动仍在进行中,期待更多成果。

MiniMax AI超级智能体发布!编程/多模态突出,MCP工具无缝集成

量子位
量子位 · 2025-06-19T09:18:55Z

本研究提出了一种新框架,整合阿尔茨海默病的多模态数据,克服传统分析中患者ID匹配的限制,揭示代谢风险因素与tau蛋白异常之间的关系。

使用大型语言模型和知识图谱的阿尔茨海默病多模态整合分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了KnowRecall和VisRecall基准,评估多模态大语言模型在15种语言中对全球地标知识和视觉记忆的一致性。结果表明,现有模型在跨语言一致性方面不足,需要开发更具多语言和文化意识的模型。

跨语言旅行:基准测评多模态大语言模型中的跨语言一致性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种改进的小语言模型情感分析方法,通过引入大语言模型生成的推理信息和双重交叉注意机制,提升了对方面和情感的识别能力,实验结果优于现有方法。

通过大语言模型生成的推理增强多模态基于方面的情感分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究解决了现有无人驾驶车辆传感器在不同光照和天气条件下感知道路状况的挑战。提出了一种光照感知的多模态融合网络(IMF),通过准确估计光照特征并动态调整各模态的权重,优化了融合过程。实验表明,IMF在多种光照条件下准确感知道路地形方面表现优于现有技术。

基于光照感知的多模态融合网络用于地形感知

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-16T00:00:00Z
计算机视觉的最新进展:多模态融合、鲁棒性与跨领域的可扩展智能

本文讨论了2025年5月12日发布的十六篇计算机视觉研究论文,涉及多模态融合、鲁棒性、效率、医疗应用和生成模型等主题。计算机视觉旨在使机器理解视觉信息,推动自动驾驶和医疗诊断等领域的发展。研究表明,集成多种数据、提升模型鲁棒性和效率是当前主要挑战,未来将关注生成模型的伦理问题及其在医疗中的应用。

计算机视觉的最新进展:多模态融合、鲁棒性与跨领域的可扩展智能

DEV Community
DEV Community · 2025-05-15T07:33:33Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码