小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
多模态大语言模型基础:大语言模型如何处理文本、图像、音频和视频

静态训练数据无法适应快速变化的信息,导致模型只能进行猜测。本文介绍了多模态大语言模型(LLM)的原理,通过将文本、图像和音频转化为统一的数学表示,模型实现了跨模态推理,能够实时理解和响应。

多模态大语言模型基础:大语言模型如何处理文本、图像、音频和视频

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-12-22T16:30:45Z
Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

Uni-MoE-2.0-Omni是哈尔滨工业大学深圳分校研发的全模态大型模型,支持文本、图像、音频和视频的理解与生成。基于Qwen2.5-7B模型,采用动态容量路由和渐进式监督学习,显著提升了跨模态推理能力,尤其在视频理解和长语音处理方面表现优异。

Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

实时互动网
实时互动网 · 2025-11-19T02:32:18Z
仅3B激活参数,更强的多模态理解与推理能力,ERNIE-4.5-VL-28B-A3B-Thinking正式开源!

百度于11月11日开源ERNIE-4.5-VL-28B-A3B-Thinking模型,具备3B激活参数,性能媲美顶级大模型。该模型在视觉语言理解、文档解析和跨模态推理方面表现优异,支持“图像思考”等创新功能,已在多个平台发布,适合商业使用。

仅3B激活参数,更强的多模态理解与推理能力,ERNIE-4.5-VL-28B-A3B-Thinking正式开源!

百度大脑
百度大脑 · 2025-11-11T04:52:58Z

快手开源了多模态推理模型Keye-VL 1.5,具备128k上下文、0.1秒视频定位和跨模态推理能力。该模型在视频理解和推理方面表现优异,能够准确判断物品出现的时间并详细描述场景,在多个基准测试中取得领先成绩。

视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理

量子位
量子位 · 2025-09-05T13:39:24Z

字节Seed推出的M3-Agent多模态智能体具备长期记忆和实时感知能力,通过强化学习提升推理效果,优于现有模型。M3-Bench基准评估其在长视频理解中的表现,展现出卓越的跨模态推理能力。

字节Seed开源长线记忆多模态Agent,像人一样能听会看

量子位
量子位 · 2025-08-18T08:04:41Z

多模态版DeepSeek-R1(Align-DS-V)由北大与港科大联合开发,超越GPT-4o,具备跨模态推理能力。通过Align-Anything框架,模型在视觉理解和文本推理上显著提升,复杂任务成绩从21.4提升至40.5。该框架支持多模态对齐,促进人工智能与人类意图结合,已开源并持续维护。

多模态版DeepSeek-R1:评测表现超GPT-4o,模态穿透反哺文本推理能力!北大港科大出品,已开源

量子位
量子位 · 2025-02-06T01:13:46Z

研究通过调查118篇论文,分析了158项关于有毒模因的工作,提出了新的分类法,识别模因毒性的三个维度:目标、意图和传达策略。探讨了跨模态推理、专家和文化知识整合的挑战,强调了自动毒性解释和处理资源匮乏语言的需求,并提出未来研究方向。

面向全面检测中文有害 memes

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

谷歌的PDF Gemini团队介绍了一种新的多模态模型系列Gemini,能够理解图像、音频、视频和文本。Gemini系列包括Ultra、Pro和Nano三种规模,适用于各种推理任务和内存受限的设备。Gemini Ultra模型在30个基准测试中有30个领先于现有技术水平,特别是在MMLU基准测试中达到了人类专家水平,并在20个多模态基准测试中改进了现有技术水平。Gemini模型在跨模态推理和语言理解方面的新能力将被广泛应用,并讨论了部署这些模型的方法。

Gemini: 一系列高能力的多模态模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码