机器之心 ·

免费用！阿里通义大模型上新，超逼真音视频生成SOTA！

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

阿里通义实验室推出OmniTalker模型，用户只需上传参考视频即可生成同步的数字人视频和语音，降低成本并提升真实感。该项目已在多个平台开放体验，支持多种模板，用户可免费使用。

🎯

❓

OmniTalker模型可以根据上传的参考视频生成同步的数字人视频和语音，模仿人物的表情和说话风格。

OmniTalker通过双分支DiT架构和视听融合模块，确保音频和视觉输出的同步性和风格一致性，从而提高生成内容的真实感。

用户可以在魔搭社区和HuggingFace等平台上免费体验OmniTalker模型，并使用提供的多种模板。

OmniTalker采用紧凑的模型架构和flow matching技术，实现了音视频的实时同步高质量输出，满足实时应用需求。

OmniTalker降低了制作成本，减少了系统复杂性和延迟，同时在音视频生成质量上达到了业界领先水平。

OmniTalker模型包括音频特征、文本特征和视觉特征的嵌入模块，以及双流DiT模型和音视频特征融合模块。

🏷️

AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
奥迪 R8 继任者发布！大 V8+千匹马力，走的却是复古风
奥迪重新走向「运动」#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
3 SpaCy Tricks for Efficient Text Processing & Entity Recognition
In this article, we will explore three essential spaCy tricks that every deve...
我用彩色配件定制了一台MacBook Neo
苹果的MacBook Neo是最便宜、色彩丰富且易于维修的笔记本电脑。用户可以自行更换彩色配件，尽管成本较高。作者尝试定制Neo，替换触控板、底壳和键帽，...
阿里开源Open Code Review：一款AI代码评审命令行工具
代码审查还在靠人工一行一行看？阿里把这个内部AI工具开源了 Open Code Review（简称 OCR）是阿里巴巴于 2026 年开源的 AI 代码...