机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。
该研究提出了Lumina-OmniLV框架,旨在提升低级视觉领域100多个子任务(如图像修复和增强)的多任务泛化能力,并探讨高级生成任务对细节修复的影响。
本研究解决了传统低光照图像增强方法在噪声、过度曝光和色彩失真等方面的不足。LUMINA-Net引入多阶段照明和反射模块,智能调整亮度与对比度,并结合空间注意力和通道特征精炼机制来减少噪声。实验结果表明,LUMINA-Net在低光照图像增强方面超越了现有的先进方法,效果显著。
学术搜索引擎Lumina比谷歌学术相关性高5倍,已获YC投资。支持一键筛选、预览和复制学术论文,免费使用。基准测试显示Lumina相关性比谷歌学术高4.8倍,递归搜索模式下高6.8倍。Lumina API即将发布,可使相关性比谷歌学术高11倍。团队由三人组成,背后有YC投资。
VL-GPT 是一种新型变压器模型,能够同时处理图像和文本,展现出色的零样本和少样本性能。研究提出了多种预训练方法,如 XGPT 和 MV-GPT,提升了图像字幕生成和多模态视频说明的效果。MiniGPT-4 和 VisualGPT 通过对齐语言模型和图像编码器,增强了生成能力。D-iGPT 改进了视觉内容理解,GenLLaVA 则结合了多模态指令跟随数据,推动了视觉助手的发展。
本研究探讨了多模态文本到图像和视频生成模型的性能,发现跨向量关注设计对模型扩展有显著影响。训练集的质量和多样性比数量更重要,增加标题密度可提升对齐性能。提出的ParaDiffusion和Lumiere模型在生成任务中表现优异,新策略MaxFusion提高了文本到图像生成的效率,开源模型将推动技术进步。
完成下面两步后,将自动完成登录并继续当前操作。