小红花·文摘

苹果发布 AI 图像压缩编解码器 PICO，同等画质下数据量可缩至三分之一

实时互动网 ·

国产世界模型登顶全球第一！断层领先谷歌英伟达，3D准确度近满分

量子位 ·

Nano Banana 2已在AI Gateway上线

Vercel News ·

游戏开发者理解屏幕分辨率的指南

freeCodeCamp.org ·

本文介绍了JoyGen框架，该框架通过130小时中文视频数据集解决了音频与唇部动作的同步及视觉质量问题，推动了AIGC领域的发展。

JoyGen：音频生成逼真的3D说话人脸视频

京东科技开发者 ·

PosterAgent是一个开源框架，可以将学术论文快速转换为高质量海报，效果优于GPT-4o，且成本低。它通过Paper2Poster评估标准，优化海报的视觉效果和文本连贯性，适合学术会议和课程资料制作。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

量子位 ·

机器学习如何改变游戏开发中的视觉验证：一个DevOps成功案例

8th Light Insights ·

本研究提出了ManipDreamer，通过引入动作树和视觉引导，显著提升了机器人操控视频合成中的指令跟随和视觉质量。

ManipDreamer: Enhancing Robotic Manipulation World Models through Action Trees and Visual Guidance

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法4DGS-1K，旨在解决现有4D高斯散点技术在动态场景重建中的存储需求和渲染速度问题。该方法通过引入时空变化评分，显著降低了存储需求，并实现了超过1000帧每秒的渲染速度，同时保持了视觉质量。

4D Gaussian Splatting Technology for Dynamic Scene Rendering at 1000+ Frames Per Second

BriefGPT - AI 论文速递 ·

本研究探讨了单图像超分辨率（SISR）的挑战，提出了一种通过多模态上下文信息（如深度、分割、边缘和文本提示）在扩散模型中学习生成先验的新方法。实验结果表明，该模型在视觉质量和保真度上优于现有方法，具有重要的应用潜力。

上下文的力量：多模态如何改善图像超分辨率

BriefGPT - AI 论文速递 ·

本研究提出了一种对角解码方法，解决自回归Transformer模型在视频生成中的速度瓶颈。该方法通过利用时空相关性，实现帧内并行解码，推断速度提升最高可达10倍，同时保持视觉质量。

Fast Autoregressive Video Generation with Diagonal Decoding

BriefGPT - AI 论文速递 ·

Wan-Video在Replicate上的Wan-2.1-1.3b模型初学者指南

DEV Community ·

本研究提出了一种一致性流动蒸馏（CFD）方法，以解决文本到3D生成中的视觉质量和多样性问题。实验结果表明，CFD方法显著优于传统技术。

Consistency Flow Distillation for Text-to-3D Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种改进的耦合归一化流模型，旨在提升自然图像生成的视觉质量。尽管整体质量仍有待提高，但在数量和质量性能上已达到先进水平，展现了其在复杂生成模型中的潜力。

Jet Flow: Normalizing Flows Based on Modern Transformers

BriefGPT - AI 论文速递 ·

该研究提出了一种混合训练框架，结合静态图像与视频数据，解决了视频人脸交换在时间一致性和复杂场景处理中的不足，显著提高了身份保持和视觉质量。

VividFace：一种基于扩散的高保真视频人脸交换混合框架

BriefGPT - AI 论文速递 ·

本研究提出了一种名为HUPE的启发式可逆网络，旨在解决水下图像因光折射和吸收导致的可视性降低问题。HUPE通过可逆变换与傅里叶变换实现水下图像与清晰图像的双向映射，并引入语义协同学习模块，显著提升视觉质量和特征提取能力。实验结果表明，HUPE的增强效果优于现有方法。

HUPE: Heuristic Underwater Perceptual Enhancement Based on Semantic Collaborative Learning

BriefGPT - AI 论文速递 ·

本研究提出了向量化粒子基得分蒸馏(VPSD)方法，显著提升了文本指导的SVG生成在可编辑性、视觉质量和多样性方面的表现。实验结果表明，该方法优于传统技术，并支持多种向量风格。

SVGDreamer++: Enhancing Editability and Diversity in Text-Guided SVG Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种低复杂度的实时超分辨率模型RTSR，旨在提升视频压缩内容的视觉质量，特别是从360p到1080p及540p到4K的分辨率。该模型通过优化的卷积神经网络和双教师知识蒸馏方法，实现了复杂性与编码性能的最佳平衡，为实时视频播放提供了有效解决方案。

RTSR: A Real-Time Super-Resolution Model for AV1 Compressed Content

BriefGPT - AI 论文速递 ·

本研究提出线性情感空间（LES）和跨维注意力网络（CDAN），以解决一体化虚拟人物生成模型在细粒度情感编辑中的不足。实验结果表明，该方法在视觉质量和可控性方面优于主流技术。

LES-Talker：线性情感空间中可控的细粒度情感编辑与虚拟人物生成

BriefGPT - AI 论文速递 ·

本研究提出了LapGSR模型，旨在解决低分辨率图像在多模态数据融合中的视觉质量问题。该模型通过拉普拉斯金字塔提取边缘信息，降低计算负担，同时保持图像细节。实验结果表明，LapGSR在ULB17-VT和VGTSR数据集上表现优异，且参数数量显著少于其他模型。

LapGSR: Laplacian Reconstruction Network for Guided Thermal Super-Resolution

BriefGPT - AI 论文速递 ·