机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。
该研究提出了Lumina-OmniLV框架,旨在提升低级视觉领域100多个子任务(如图像修复和增强)的多任务泛化能力,并探讨高级生成任务对细节修复的影响。
本研究解决了传统低光照图像增强方法在噪声、过度曝光和色彩失真等方面的不足。LUMINA-Net引入多阶段照明和反射模块,智能调整亮度与对比度,并结合空间注意力和通道特征精炼机制来减少噪声。实验结果表明,LUMINA-Net在低光照图像增强方面超越了现有的先进方法,效果显著。
学术搜索引擎Lumina比谷歌学术相关性高5倍,已获YC投资。支持一键筛选、预览和复制学术论文,免费使用。基准测试显示Lumina相关性比谷歌学术高4.8倍,递归搜索模式下高6.8倍。Lumina API即将发布,可使相关性比谷歌学术高11倍。团队由三人组成,背后有YC投资。
通过改进大型多模态模型的零样本能力,研究人员构建了一个新的多模态指令跟随数据集,并使用了三种预训练模型的指令微调策略。他们建立了一个生成性的大型语言与视觉助手,该模型在视觉理解任务上表现出与其他模型相当的能力。他们公开了数据集、代码库和模型检查点。
Lumina-T2X是一种Flow-based Large Diffusion Transformer(Flag-DiT)模型,可生成任意分辨率、宽高比和长度的图像、视频、多视角3D物体和音频剪辑。采用RoPE、RMSNorm和Flow matching等技术,具有稳定性、灵活性和可伸缩性,并在分辨率外推、高分辨率编辑、一致的3D视图合成和视频过渡等任务中表现出色。
完成下面两步后,将自动完成登录并继续当前操作。