小红花·文摘

SakanaAI推出的Text-to-LoRA（T2L）技术简化了大模型的微调流程，用户只需一句话即可生成LoRA，压缩率达到80%，准确率仅下降1.2%。该技术使非技术用户能够轻松适配模型，推动“文本驱动”时代的到来。

一句话生成任务专属LoRA！Transformer作者创业公司颠覆LLM微调

量子位 ·

本研究提出了MuseFace框架，解决了文本驱动面部编辑在多样性和可控性方面的不足。通过生成语义掩码，结合扩散模型和语义编辑模型，显著提高了编辑的精度和控制能力，实验结果表明其具有高保真性和广泛的应用潜力。

MuseFace: A Text-Driven Approach to Facial Editing Using Diffusion-Generated Masks

BriefGPT - AI 论文速递 ·

本研究提出了一种骨架感知潜在扩散模型（SALAD），旨在解决文本驱动运动生成中关节、时间帧和文本表示的简化问题，从而显著提高文本与运动的对齐能力。

骨架感知潜在扩散模型用于文本驱动的运动生成与编辑

BriefGPT - AI 论文速递 ·

ControlVideo：单镜头文本驱动的视频编辑 | 清华大学朱军团队

实时互动网 ·

本研究提出了一种文本驱动的立体视频生成系统（T-SVG），旨在简化立体视频创作流程。该系统通过文本提示生成参考视频，并将其转换为自然立体效果的3D点云序列，推动多媒体领域的发展。

Text-Driven Stereoscopic Video Generation System (T-SVG)

BriefGPT - AI 论文速递 ·

本研究提出了MoRAG，一种基于多部分融合的检索增强生成策略，用于解决文本驱动的人类运动生成中的拼写错误和改写问题。该方法通过改进的运动检索过程，增强了运动扩散模型的表现，展示了其在运动生成领域的潜力。

MoRAG -- 多重融合检索增强生成的人类运动生成

BriefGPT - AI 论文速递 ·

GaussCtrl是一种使用文本驱动的方法来编辑3D场景，通过多视角一致性编辑提高编辑速度和视觉质量，实验证明其效果更好。

DGE：一致多视角直接高斯三维编辑

BriefGPT - AI 论文速递 ·

介绍了3DStyleGLIP，一种基于文本驱动的3D风格化方法。利用GLIP模型的视觉-语言嵌入空间定位3D模型的部分，并根据文本提示修改颜色和局部几何形状。通过部分级风格损失和补充学习技术训练3DStyleGLIP。实验证实了其在部分级别的风格化任务上的成果，展示了推动3D风格化领域发展的潜力。

3DStyleGLIP：面向部分的文本引导的 3D 神经风格化

BriefGPT - AI 论文速递 ·

本研究提出了一种基于级联扩散的生成框架，用于文本驱动的人体动作合成。该框架利用了一种名为GUESS的策略，将人体姿态逐步抽象为多个粒度级别上的更粗糙的骨架，从而改善了跨模态动作合成任务。实验证明，GUESS优于现有方法。

文本驱动的人体动作生成的逐渐丰富合成

BriefGPT - AI 论文速递 ·

StableVideo是一种文本驱动视频编辑框架，通过引入时态依赖于现有的文本驱动扩散模型，解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。该框架利用分层表示的概念将相邻帧的外观信息传播到下一帧，实现了一致感知的视频编辑。实验证明该方法具有强大的编辑能力，展示了卓越的定性和定量结果。

潜在变形：用于零样本视频到视频翻译的一致性扩散潜变量

BriefGPT - AI 论文速递 ·

该研究提出了一种新的文本驱动的整体运动生成任务，使用HumanTOMATO文本对齐全身运动生成框架解决了以往的限制，并在实验证明中表现出显著优势。

HumanTOMATO: 文本对齐的全身动作生成

BriefGPT - AI 论文速递 ·

StableVideo是一种文本驱动视频编辑框架，通过引入时态依赖于现有的文本驱动扩散模型，解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。该框架利用分层表示的概念将相邻帧的外观信息传播到下一帧，实现了一致感知的视频编辑。

FLATTEN: 光流引导的注意力技术用于一致的文本 - 视频编辑

BriefGPT - AI 论文速递 ·

淘宝问问大模型来了，又一次电商机会

AI.News ·