爱范儿 ·

AGI 加速降临！人大系多模态模型首次实现自主更新，写真视频生成力压 Sora

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

Awaker 1.0 是智子引擎发布的多模态大模型，具备自主更新能力，向通用人工智能（AGI）迈出重要一步。该模型通过与智能设备结合，持续学习新知识，解决复杂任务。其视频生成底座 VDT 在生成高质量视频方面表现优异，推动了多模态大模型的发展。

🎯

关键要点

Awaker 1.0 是智子引擎发布的多模态大模型，具备自主更新能力，向通用人工智能（AGI）迈出重要一步。
Awaker 1.0 采用全新的 MOE 架构，能够与智能设备结合，持续学习新知识，解决复杂任务。
Awaker 1.0 的视频生成底座 VDT 在生成高质量视频方面表现优异，推动了多模态大模型的发展。
Awaker 1.0 具备真正的自主更新能力，适用于更广泛的行业场景，如 AI Agent、具身智能等。
Awaker 1.0 的基座模型在视觉问答和业务应用任务上超过了其他先进模型，验证了多任务 MOE 架构的有效性。
VDT 作为现实世界的模拟器，能够生成时间上连贯的视频帧，展现了 Transformer 在视频生成领域的潜力。
智子引擎团队认为 AI 的自我探索、自我反思等自主学习能力是智能水平的重要评估标准，Awaker 1.0 在这方面取得了突破。

❓

延伸问答

Awaker 1.0 的自主更新能力有什么特点？

Awaker 1.0 具备真正的自主更新能力，能够与智能设备结合，通过持续学习新知识和反馈进行自我更新。

Awaker 1.0 在视频生成方面的表现如何？

Awaker 1.0 的视频生成底座 VDT 在生成高质量视频方面表现优异，尤其在写真视频生成上超过了 Sora。

Awaker 1.0 的 MOE 架构有什么优势？

Awaker 1.0 的 MOE 架构能够有效解决多模态多任务预训练中的冲突，提升模型在多个任务上的能力。

Awaker 1.0 如何推动多模态大模型的发展？

Awaker 1.0 通过自主更新和高效的视频生成能力，推动了多模态大模型在各行业的应用，解决了落地难题。

Awaker 1.0 在视觉问答任务上的表现如何？

Awaker 1.0 在视觉问答和业务应用任务上超过了其他先进模型，验证了其多任务 MOE 架构的有效性。

VDT 的创新之处是什么？

VDT 将 Transformer 技术应用于视频生成，具备出色的时间依赖性捕获能力，能够生成连贯的视频帧。

🏷️

标签

Awaker 1.0 agi sora 多模态大模型自主更新视频生成通用人工智能

➡️

继续阅读

视频问诊的技术原理：从采集到呈现，一条链路怎么跑通的
视频问诊背后的技术是怎么运作的？不是代码层面，而是从”患者端摄像头前的画面”到”医生端屏幕上看到的画面”，这条数据链路到底走了哪些步...
视频问诊的核心功能模块有哪些
如果你正在评估视频问诊系统或梳理产品需求，第一步要搞清楚的就是一套完整的视频问诊系统由哪些模块组成。不是供应商官网功能列表那种”有什么”，而是从系统架构的角...
视频问诊和图文问诊有什么区别
你打开互联网医院应用，同一个医生同时提供”视频问诊”和”图文问诊”两种方式，挂号时需要二选一。你不确定该选哪个，或者选了之后发现不太...
什么是视频问诊?
你在医院小程序里看到过”视频问诊”入口，或者在新闻里读到某家互联网医院上线了视频问诊服务。你大概知道它是远程看病的，但真要你说清它和微信视频通话有什么区别、...
VideoProc 年中4折：N合一超强下载、图像增强、视频处理，工具箱全家桶一次带走
你的赛博头痛是哪一种？想保存 YouTube 视频或者 B 站教程，结果下载器跑到一半直接报错，或者干脆就动不了。在ins上扒了一张很满意的图，结果分辨...
关键时刻还是靠开源模型：HuggingFace遭黑客攻击某模型拒绝审计最后靠GLM-5.2
#人工智能关键时刻还是得靠开源模型：HuggingFace 遭到黑客攻击，想要使用 Claude 进行取证分析时始终被拒绝，最终只能本地部署开源的 GL...