小红花·文摘

王建硕的博客 ·

我们发布了Gemini 2.5 Flash和Pro文本转语音模型的重大升级，提升了表达能力、语速控制和多说话者对话的自然性，适用于有声书和电子学习等场景。开发者可在Google AI Studio中使用这些新模型。

The Keyword ·

子虚栈 ·

本文介绍了physical intelligence公司推出的实时动作分块技术，旨在提升视觉-语言-动作模型（VLA）的实时控制能力。该技术通过异步机制和修复方法，解决了模型推理延迟和动作不连贯的问题，使机器人能够更精确地执行复杂任务。

结构之法算法之道 ·

网络安全研究人员发现更新版LightSpy间谍软件，能够从社交媒体提取数据，并感染Windows和苹果系统。其功能包括收集Wi-Fi信息、截图和位置信息，支持多平台操作。新指令增强了监控能力。此外，针对印度用户的恶意软件SpyLend伪装成金融应用，实施贷款诈骗。

FreeBuf网络安全行业门户 ·

snarfed.org ·

本文提出了Diffusion as Shader（DaS）方法，旨在解决视频生成中的精确控制问题，提升生成视频的时间一致性和控制能力，适用于多种任务。

BriefGPT - AI 论文速递 ·

本文介绍了一系列新方法，如LucidDreaming、MIG和Direct3D，旨在提高3D生成的控制能力和质量。这些技术解决了几何不一致性和属性泄漏问题，提升了生成结果的视觉质量和一致性，为用户提供了更大的创作自由度，推动了3D内容创作的进步。

BriefGPT - AI 论文速递 ·

The Verge ·

本文综述了基于扩散模型的图像修复方法，提出了未来研究的五个方向，介绍了降级感知视觉-语言模型（DA-CLIP）和双阶段框架，强调了恶劣天气条件下的图像恢复技术。研究表明，扩散模型在盲目图像恢复和超分辨率任务中表现优越。

BriefGPT - AI 论文速递 ·

本文介绍了将去噪扩散模型应用于图像融合领域的方法，通过设计两种不同的条件注入模块来生成融合图像。实验结果表明该方法具有最先进的结果和良好的泛化性能，可激发其他工作的灵感并深入了解该领域。

BriefGPT - AI 论文速递 ·