SakanaAI推出的Text-to-LoRA(T2L)技术简化了大模型的微调流程,用户只需一句话即可生成LoRA,压缩率达到80%,准确率仅下降1.2%。该技术使非技术用户能够轻松适配模型,推动“文本驱动”时代的到来。
本研究提出了MuseFace框架,解决了文本驱动面部编辑在多样性和可控性方面的不足。通过生成语义掩码,结合扩散模型和语义编辑模型,显著提高了编辑的精度和控制能力,实验结果表明其具有高保真性和广泛的应用潜力。
本研究提出了一种骨架感知潜在扩散模型(SALAD),旨在解决文本驱动运动生成中关节、时间帧和文本表示的简化问题,从而显著提高文本与运动的对齐能力。
本文提出的ControlVideo模型实现了文本驱动的视频编辑,确保内容的忠实性和时间的一致性。通过引入条件控制信息和改进注意力机制,ControlVideo能够处理140帧视频,显著提升编辑效果和一致性,优于现有方法。
本研究提出了一种文本驱动的立体视频生成系统(T-SVG),旨在简化立体视频创作流程。该系统通过文本提示生成参考视频,并将其转换为自然立体效果的3D点云序列,推动多媒体领域的发展。
本研究提出了MoRAG,一种基于多部分融合的检索增强生成策略,用于解决文本驱动的人类运动生成中的拼写错误和改写问题。该方法通过改进的运动检索过程,增强了运动扩散模型的表现,展示了其在运动生成领域的潜力。
GaussCtrl是一种使用文本驱动的方法来编辑3D场景,通过多视角一致性编辑提高编辑速度和视觉质量,实验证明其效果更好。
介绍了3DStyleGLIP,一种基于文本驱动的3D风格化方法。利用GLIP模型的视觉-语言嵌入空间定位3D模型的部分,并根据文本提示修改颜色和局部几何形状。通过部分级风格损失和补充学习技术训练3DStyleGLIP。实验证实了其在部分级别的风格化任务上的成果,展示了推动3D风格化领域发展的潜力。
本研究提出了一种基于级联扩散的生成框架,用于文本驱动的人体动作合成。该框架利用了一种名为GUESS的策略,将人体姿态逐步抽象为多个粒度级别上的更粗糙的骨架,从而改善了跨模态动作合成任务。实验证明,GUESS优于现有方法。
StableVideo是一种文本驱动视频编辑框架,通过引入时态依赖于现有的文本驱动扩散模型,解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。该框架利用分层表示的概念将相邻帧的外观信息传播到下一帧,实现了一致感知的视频编辑。实验证明该方法具有强大的编辑能力,展示了卓越的定性和定量结果。
该研究提出了一种新的文本驱动的整体运动生成任务,使用HumanTOMATO文本对齐全身运动生成框架解决了以往的限制,并在实验证明中表现出显著优势。
StableVideo是一种文本驱动视频编辑框架,通过引入时态依赖于现有的文本驱动扩散模型,解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。该框架利用分层表示的概念将相邻帧的外观信息传播到下一帧,实现了一致感知的视频编辑。
淘宝问问是一个以文本驱动的平台,主打商品推荐。人们担心其功能会被其他具有数据的公司取代。淘宝问问的上线将对优化、外部引流和销售分成以及用户体验产生影响。
完成下面两步后,将自动完成登录并继续当前操作。