小红花·文摘

机器之心数据服务现已上线，提供高效稳定的数据获取服务，简化数据爬取流程。

Lumina-mGPT 2.0：自回归模型华丽复兴，媲美顶尖扩散模型

机器之心 ·

该研究提出了Lumina-OmniLV框架，旨在提升低级视觉领域100多个子任务（如图像修复和增强）的多任务泛化能力，并探讨高级生成任务对细节修复的影响。

Lumina-OmniLV：统一的多模态框架用于通用低级视觉

BriefGPT - AI 论文速递 ·

本研究解决了传统低光照图像增强方法在噪声、过度曝光和色彩失真等方面的不足。LUMINA-Net引入多阶段照明和反射模块，智能调整亮度与对比度，并结合空间注意力和通道特征精炼机制来减少噪声。实验结果表明，LUMINA-Net在低光照图像增强方面超越了现有的先进方法，效果显著。

通过多阶段照明和噪声适应网络进行低光照升级的 LUMINA-Net

BriefGPT - AI 论文速递 ·

学术搜索引擎Lumina比谷歌学术相关性高5倍，已获YC投资。支持一键筛选、预览和复制学术论文，免费使用。基准测试显示Lumina相关性比谷歌学术高4.8倍，递归搜索模式下高6.8倍。Lumina API即将发布，可使相关性比谷歌学术高11倍。团队由三人组成，背后有YC投资。

3人干翻谷歌！免费学术搜索比谷歌学术相关性高5倍，已获YC投资

量子位 ·

VL-GPT 是一种新型变压器模型，能够同时处理图像和文本，展现出色的零样本和少样本性能。研究提出了多种预训练方法，如 XGPT 和 MV-GPT，提升了图像字幕生成和多模态视频说明的效果。MiniGPT-4 和 VisualGPT 通过对齐语言模型和图像编码器，增强了生成能力。D-iGPT 改进了视觉内容理解，GenLLaVA 则结合了多模态指令跟随数据，推动了视觉助手的发展。

Lumina-mGPT：运用多模态生成预训练的灵活写实文本到图像生成

BriefGPT - AI 论文速递 ·

本研究探讨了多模态文本到图像和视频生成模型的性能，发现跨向量关注设计对模型扩展有显著影响。训练集的质量和多样性比数量更重要，增加标题密度可提升对齐性能。提出的ParaDiffusion和Lumiere模型在生成任务中表现优异，新策略MaxFusion提高了文本到图像生成的效率，开源模型将推动技术进步。

Lumina-T2X：基于流式大规模扩散转换器将文本转化为任何模态、分辨率和持续时间

BriefGPT - AI 论文速递 ·