小红花·文摘

视频版Nano Banana来了！内置Gemini世界知识；原版香蕉出图仅需4秒

量子位 ·

GPT 5.1 发布了，但西方媒体准备「讲好中国故事」

TechWeb 全站精华 ·

商汤医疗在苏州病理学术盛会上展示了智慧病理综合解决方案，强调技术与临床实践结合。CEO张少霆介绍了多模态技术提升病理诊断效率，推动AI在医疗中的应用。与会专家探讨病理AI技术前景，商汤医疗致力于数字病理与人工智能融合，助力医疗转型。

“端云协同+多模态融合”正成为AI大模型落地的核心范式

全球TMT-美通国际 ·

国产统一图像生成模型OmniGen2.0正式发布，显著提升了上下文理解、指令遵循和图像生成质量，支持文生图和图像编辑等功能，模型权重和代码将全面开源，推动多模态技术发展。

GitHub一周2000星！国产统一图像生成模型神器升级，理解质量双up，还学会了“反思”

量子位 ·

计算语言学的进展：来自2025年5月9日arXiv语言技术研究的洞察

DEV Community ·

生数科技副总裁廖谦在AIGC峰会上指出，多模态技术将推动个性化内容平台的发展，视频生成进入黄金期，AI将提升创作效率，未来将实现实时、可控、可交互的内容生成，影响社交和游戏等多个领域。

生数科技副总裁：多模态技术定将催生全新内容平台，实现完全个性化、实时可控、可交互｜中国AIGC产业峰会

量子位 ·

优艾智合-西安交大具身智能机器人研究院公布人形机器人矩阵

机器之心 ·

灵感时刻近日完成千万级人民币天使轮融资，由Hi2 Capital领投。公司成立于2023年，专注于本地化AI技术，创始人康洪文曾在腾讯任职。灵感时刻致力于多模态及大模型技术的开发，已实现盈亏平衡，并计划加速产品研发与市场拓展。

协同感知算法(四):大模型、多模态以及新趋势

Sekyoro的博客小屋 ·

到2025年，AI手机助手将实现更自然的交互，具备视觉和思考能力。OPPO的小布助手通过语音和相机识别理解用户意图，提升手机使用体验。多模态技术将改变人与APP的互动方式，成为个性化的智能伙伴。

2025 AI手机交互体验：它能说会道，有眼有脑，是更聪明更懂你的AI伙伴

量子位 ·

百度不再开发Sora，专注于解决AI幻觉问题，推出iRAG技术以提升图像生成的可控性和准确性。李彦宏强调多模态技术的重要性，认为应从业务需求出发，推动AI应用落地，促进AGI发展。

不做Sora背后：百度的多模态路线是什么？

量子位 ·

本文综述了基于扩散模型的图像修复方法，提出未来研究方向。介绍了SUPIR、TransRFIR等新方法，利用多模态技术和视觉语言模型提升图像修复质量，解决不同退化问题。这些方法在处理严重退化时表现出色，具有良好的视觉质量和性能。

DreamClear：高容量的真实世界图像恢复与隐私安全的数据集策划

BriefGPT - AI 论文速递 ·

本文探讨了多模态技术在视觉导航和问答中的应用，强调单模态方法在捕捉数据集偏差方面的优势。实验表明，单模态方法的性能显著提升。提出了新任务和数据集，如Embodied Question Answering和SQA3D，以增强代理人的情境理解和推理能力。同时，介绍了Scene-LLM模型，提升了3D环境中的交互能力，推动了3D视觉理解的发展。

本文介绍了一种基于文本指导的图像编辑方法，结合预训练模型生成训练数据，以提升图像编辑效果。研究提出了多个系统，如Imagen Editor和InstructAny2Pix，利用人类反馈和多模态技术改善编辑质量。新方法InstructBrush通过示例图像提取编辑效果，克服了传统方法的局限性。此外，UltraEdit数据集的创建支持大规模高质量图像编辑，E-Bench基准则提升了视频编辑的质量评估。

I2EBench：基于指令的图像编辑综合基准

BriefGPT - AI 论文速递 ·

本文介绍了多个影视生成框架，如MovieFactory、InteractiveVideo和SceneCraft，利用自然语言处理和多模态技术生成影视作品。研究展示了在角色动画、视频生成和3D场景渲染等领域的先进成果，强调用户交互和模型协作的重要性，推动多模态内容生成的进步。

Anim-Director：一个由大型多模态模型驱动的可控动画视频生成代理

BriefGPT - AI 论文速递 ·

本文介绍了一种高质量的安全服装和头盔数据集，旨在提升工人安全。研究开发了ShieldLM安全检测器，支持可定制检测规则，表现优异。同时，提出了AccidentBlip2模型用于交通事故预测，以及YOLO v7算法用于识别建筑工人安全装备，增强安全合规性。研究表明，多模态技术能有效改善安全管理，推动交通安全与执法系统的发展。

可解释且细致的安全合规检测的视觉语言模型在多样化工作场所中的应用

BriefGPT - AI 论文速递 ·

本文介绍了GNN-GMVO（图神经网络-总商品价值优化器），旨在优化电子商务中的相似物品推荐。实验表明，该模型在预测性能和GMV方面优于现有基准。此外，结合多模态技术和深度学习，提出了高效的视觉搜索和推荐系统，显著提升了电商业务效果。

大规模视频驱动电子商务中的神经图匹配

BriefGPT - AI 论文速递 ·

视频版Nano Banana来了！内置Gemini世界知识；原版香蕉出图仅需4秒

阶跃星辰杀入季后赛，强势跻身AI“新六小虎”第一梯队

GPT 5.1 发布了，但西方媒体准备「讲好中国故事」

商汤医疗携病理数智一体化方案，亮相苏州病理学术盛宴

“端云协同+多模态融合”正成为AI大模型落地的核心范式

GitHub一周2000星！国产统一图像生成模型神器升级，理解质量双up，还学会了“反思”

计算语言学的进展：来自2025年5月9日arXiv语言技术研究的洞察

生数科技副总裁：多模态技术定将催生全新内容平台，实现完全个性化、实时可控、可交互｜中国AIGC产业峰会

大型语言模型能否帮助设计我们的下一代药物和材料？

优艾智合-西安交大具身智能机器人研究院公布人形机器人矩阵

灵感时刻完成千万级天使轮融资，创立第一年ARR达近千万美元

协同感知算法(四):大模型、多模态以及新趋势

2025 AI手机交互体验：它能说会道，有眼有脑，是更聪明更懂你的AI伙伴

不做Sora背后：百度的多模态路线是什么？

DreamClear：高容量的真实世界图像恢复与隐私安全的数据集策划

多模态场景中的情境推理

I2EBench：基于指令的图像编辑综合基准

Anim-Director：一个由大型多模态模型驱动的可控动画视频生成代理

可解释且细致的安全合规检测的视觉语言模型在多样化工作场所中的应用

大规模视频驱动电子商务中的神经图匹配