小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新型合成字幕生成技术，旨在解决大规模视觉-语言模型预训练中的数据稀缺问题。该技术能够生成高质量、低幻觉的合成字幕，显著提升模型在视觉语言任务中的表现，特别是在文本到图像领域。

Low-Hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training

BriefGPT - AI 论文速递 ·

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

机器之心 ·

本文介绍了一种名为Gen-L-Video的新方法，利用短视频扩散模型生成多样化的长视频，提升视频生成和编辑能力。该方法在多个数据集上验证，性能优于现有技术，用户偏好超过80%。研究还探讨了视频生成模型的时序一致性和高质量生成策略。

长视频生成调查：挑战、方法与前景

BriefGPT - AI 论文速递 ·