小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
消费级显卡可以快速上手跑!面壁智能MiniCPM-o 4.5发技术报告

面壁智能发布了MiniCPM-o 4.5,这是首个全双工全模态大模型,支持视频、音频和文本流输入,能够在个人电脑上运行,具备实时感知和主动交互能力,提升用户体验。该模型在多项评测中表现优异,适用于智能助手和无障碍服务,但在稳定性和复杂场景处理上仍有不足。

消费级显卡可以快速上手跑!面壁智能MiniCPM-o 4.5发技术报告

量子位
量子位 · 2026-04-28T14:50:10Z
戴盟机器人发布全模态物理世界数据集Daimon-Infinity

戴盟机器人发布了全球最大规模的全模态物理世界数据集Daimon-Infinity,涵盖触觉、视觉等多维信息,计划形成数百万小时的数据。该数据集将用于真实场景的物理交互,推动具身智能的发展,并已开源10000小时高质量数据,构建了外发式数据采集网络,形成完整的数据处理闭环。

戴盟机器人发布全模态物理世界数据集Daimon-Infinity

全球TMT-美通国际
全球TMT-美通国际 · 2026-04-21T08:33:07Z
从Token到词元:全模态时代的基模与交互入口

国家数据局首次确认“词元”为Token的标准译名,标志着AI技术向全模态发展。模思智能通过语音切入,推动统一Token结构,提升情境理解能力,已成为国内领先的全模态模型公司。

从Token到词元:全模态时代的基模与交互入口

量子位
量子位 · 2026-03-27T04:11:18Z
当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

OpenBMB推出的MiniCPM-o-4.5模型仅用9B参数实现全模态能力,强调跨模态对齐与推理效率,适合主流GPU部署,具备高性能与轻量化优势。

当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经
HyperAI超神经 · 2026-02-28T06:48:25Z

文心5.0正式发布,参数达到2.4万亿,具备全模态能力,表现优异。其在文本和视觉理解方面多次夺冠,展现出强大的知识整合与创造力。通过原生全模态建模,提升了理解与生成的协同能力,已广泛应用于多个行业,未来发展值得关注。

2.4万亿参数“最强文科生”,文心5.0正式版,你挺懂山东人啊?

量子位
量子位 · 2026-01-23T13:43:57Z
文心大模型5.0正式版,上线!

百度文心大模型5.0正式上线,参数达到2.4万亿,具备全模态理解与生成能力,支持文本、图像、音频和视频等多种信息。该技术采用统一自回归架构,提升推理效率,显著增强多模理解、代码生成和创意写作能力。百度千帆平台已支持企业用户便捷调用文心5.0,助力各行业应用。

文心大模型5.0正式版,上线!

百度大脑
百度大脑 · 2026-01-22T12:51:18Z
Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

Uni-MoE-2.0-Omni是哈尔滨工业大学深圳分校研发的全模态大型模型,支持文本、图像、音频和视频的理解与生成。基于Qwen2.5-7B模型,采用动态容量路由和渐进式监督学习,显著提升了跨模态推理能力,尤其在视频理解和长语音处理方面表现优异。

Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

实时互动网
实时互动网 · 2025-11-19T02:32:18Z
美团 LongCat 团队发布全模态一站式评测基准 UNO-Bench

多模态人工智能正向全模态大模型发展,但评测体系滞后。美团LongCat团队提出UNO-Bench,提供高质量评测基准,有效评估模型的单模态与全模态能力,揭示“组合定律”,推动AI行业发展。

美团 LongCat 团队发布全模态一站式评测基准 UNO-Bench

美团技术团队
美团技术团队 · 2025-11-17T00:00:00Z

文心5.0正式发布,支持文字、图像、音频和视频的全模态输入与输出,具备强大的理解与生成能力。其在多模态理解和情感分析方面表现突出,能够精准捕捉细节并进行复杂推理。新技术采用统一架构,提升训练与推理效率,参数规模超过2.4万亿,标志着百度在大模型领域的突破。

2.4万亿参数原生全模态,文心5.0一手实测来了

量子位
量子位 · 2025-11-13T09:39:15Z

阿里巴巴发布了开源全模态大模型Qwen2.5-Omni-7B,支持文本、音频、图像和视频的实时交互,性能优于同类模型。该模型轻量化,适合在手机等终端上部署,开发者可免费商用。

7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用

量子位
量子位 · 2025-03-27T05:00:18Z
最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造

Ola模型是一种全模态语言模型,具备图像、视频和音频理解的强大能力。其采用渐进式模态对齐策略,逐步提升模型性能。在多个基准测试中,Ola超越了现有的专用模型,推动了全模态理解的研究进展。

最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造

机器之心
机器之心 · 2025-02-18T04:37:11Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码