京东开源的多模态基础模型JoyAI-Image-Edit支持文生图、图像理解和指令引导的图像编辑,具备像素级精细化编辑和真实立体感,解决了理解与生成之间的空间断层。该模型在生成与理解的深度融合、空间编辑的突破和多场景高性能表现方面具有技术优势,广泛应用于电商、具身智能和3D重建等领域。
Luma AI推出的Uni-1模型在图像理解与生成方面表现优异,超越谷歌的Nano Banana Pro和GPT Image 1.5。该模型由不到15人的华人团队开发,具备角色姿态迁移和草稿转漫画等功能,展现出强大的竞争力,预示着视觉AI的未来发展方向。
Gemini 3 Flash的Agentic Vision通过将图像理解转变为主动过程,提升了视觉任务的处理能力。它结合视觉推理与代码执行,允许模型逐步分析和操作图像,显著提高准确性,并支持图像缩放、注释和可视化计算,增强推理能力,未来将扩展更多功能。
谷歌搜索的AI模式更新使视觉探索更加自然,用户可通过对话式提问获取丰富的视觉结果,帮助明确模糊想法。在购物时,用户只需描述商品,AI会智能推荐相关选项,简化购物体验。新技术结合图像理解和多模态能力,深入分析图像内容,提供精准结果。本周在美国推出。
清华大学与面壁智能推出的MiniCPM-V 4.0模型,参数减少至4.1B,提升了移动端图像理解能力,并支持iOS应用,推动了端侧部署的广泛应用。
清华大学与面壁智能推出的MiniCPM-V 4.0端侧大模型,具备强大的图像理解能力,参数减少至4.1B,适用于移动设备,提升用户体验,推动AI在边缘设备的应用。
昆仑万维推出的开源多模态统一模型Skywork UniPic,参数量为1.5B,具备图像理解、生成和编辑能力,性能接近大型模型,能够在消费级显卡上流畅运行,支持多种应用场景,推动AI技术普及与发展。
苹果在最新技术报告中介绍了iOS 26的新智能基础模型,包括一个3B参数的高效模型和一个大型服务器模型。3B模型在设备上运行,强调低延迟和资源节省;大型模型则注重高准确性和可扩展性。苹果还强调负责任的人工智能原则,确保安全性和有效性。
谷歌推出了MedGemma,包含两个开源生成AI模型,分别为多模态的MedGemma 4B和专注于医疗文本的27B。它们可用于放射报告生成和临床总结等任务,但谷歌强调需进一步验证,不能直接用于临床。
字节推出的Seed1.5-VL多模态推理模型在60项基准测试中获得38项第一,表现优异。该模型结合532M视觉编码器和200亿参数,擅长复杂推理、OCR和图像理解。通过创新的训练方法和架构设计,模型在多模态数据处理上表现突出,但仍存在局限性。
本研究提出通过扩散变换器提升图像理解与生成模型的训练效率和生成质量。采用顺序预训练策略,开发的BLIP3-o模型在基准测试中表现优异,并开放源代码和数据集以促进研究。
Perception-LM-8B是Meta FAIR团队开发的多模态模型,具备深度理解图像和视频的能力。它结合了轻量级语言解码器和高效视觉编码器,支持视觉问答和视频推理等任务,使用开放数据训练,确保透明性。该模型在图像和视频理解方面表现优异,适合研究和应用。
本研究提出Nexus-Gen模型,通过双阶段对齐训练,将语言推理与图像生成相结合,提升了图像理解与生成的质量,解决了现有多模态模型在特定领域的不足。
本研究提出了一种名为VCM的自监督视觉概念建模框架,旨在提高大型视觉-语言模型的效率。该方法通过隐式对比学习和视觉-语言微调,显著降低计算成本,同时在图像理解任务中保持优良性能。
ChatGPT通过分析照片,利用车牌、植物和建筑细节推测地理位置,准确度达到200-300公里,最终锁定在加州一个小村庄,展示了其在图像理解上的潜力。
Eagle 2.5 是 NVIDIA 推出的视觉语言模型,专为处理长上下文的多模态数据而设计。它通过信息优先采样和渐进式后训练策略,显著提升了视频和图像理解任务的性能,尤其在高分辨率输入下表现突出。该模型强调上下文完整性和数据集多样性,是多模态理解的重要工具。
本研究探讨了大型视觉-语言模型在外科图像理解中的应用,发现其在泛化能力和上下文学习方面表现优异,但在空间和时间推理任务上仍显不足,为未来的应用提供了重要见解。
阿里通义千问团队发布了新模型Qwen2.5-VL-32B-Instruct,提升了人类偏好回复、数学推理和图像理解能力。与72B模型相比,32B在多模态任务中表现更佳,用户体验显著改善。团队将继续优化推理过程,以应对复杂视觉任务。
Qwen2.5-VL-32B模型在社区中获得积极反馈,具备更符合人类偏好的回复、提升的数学推理能力和图像理解能力,尤其在多模态任务中表现优越。未来将专注于复杂推理任务的研究。
该研究提出了MicroVQA基准,评估科学研究中专家的图像理解和假设生成能力。通过1042道多项选择题,揭示了现有语言模型在多模态推理中的不足,强调感知错误是主要挑战,为AI驱动的生物医学研究提供了重要资源。
完成下面两步后,将自动完成登录并继续当前操作。