BriefGPT - AI 论文速递 ·

嘴唇说谎：识别唇同步 DeepFakes 中音频和视觉之间的时间不一致

💡 原文中文，约400字，阅读约需1分钟。

📝

内容提要

StyleLipSync是一种基于风格的个性化唇形同步视频生成模型，可以从任意音频生成与身份无关的唇形同步视频。该模型通过引入姿态感知掩蔽和少量样本的唇形同步适应方法，生成准确的唇形同步视频，并增强个人特定的视觉信息。实验证明，该模型在零样本设置下也能增强看不见的面部特征。

🎯

关键要点

StyleLipSync是一种基于风格的个性化唇形同步视频生成模型。
该模型可以从任意音频生成与身份无关的唇形同步视频。
模型利用预先训练的StyleGAN的语义丰富潜空间生成视频。
引入姿态感知掩蔽以提高过帧自然性。
提出少量样本的唇形同步适应方法，增强个人特定的视觉信息。
实验证明模型在零样本设置下也能增强看不见的面部特征。

🏷️

标签

StyleLipSync 个性化唇形同步视频姿态感知掩蔽零样本设置

➡️

继续阅读

RoboTTT——面向机器人策略的上下文扩展：将TTT集成至VLA中以推理时建立记忆信息，从而将视觉-运动上下文扩展到 8K 个时间步
摘要：本文提出RoboTTT方法，通过将测试时训练（TTT）机制整合到机器人基础模型中，实现了8K时间步的长视觉-运动上下文建模。该方法采用快速权重机制，...
Presentation: From Copy-Paste to Composition: Building Agents Like Real Software
Jake Mannix discusses moving AI agents past chaotic "1970s BASIC" arc...
I made a policy engine think it was in production
Kyverno is a Kubernetes-native policy engine that validates, mutates, and gen...
Meta made its own AI detection system. It should have just used Google’s
IIn March, Meta's Oversight Board called on the company to "meet its ...
The 2026 Honda Prelude is a marvel of hybrid technology
When it comes to enthusiast-geared Honda hardware, the Civic Si, Civic Type R...
AWS Billing Bug Shows Customers Trillion-Dollar Estimates While Its Own Cost Alarms Fail to Act
A configuration change in AWS's bill computation system showed customers ...