小红花·文摘

半壁华人！GPT Image 2团队曝光：无锡才俊带队，13人4个月封神

量子位 ·

香港科技大学与阿里巴巴合作开发了通用视频检索（GVE）模型，利用155万条多模态训练数据，突破了传统视频检索的瓶颈，展现出优越的泛化能力，推动视频检索从“专用”向“通用”转型。

用155万模拟视频给模型上课！GVE模型一次学会9种视频检索技能

量子位 ·

本研究提出音频评分蒸馏采样（Audio-SDS），旨在解决音频生成领域缺乏通用模型的问题。Audio-SDS 能够实现多种音频处理任务，如物理音效模拟和源分离，展示了蒸馏方法的广泛适用性。

音频的评分蒸馏采样：源分离、合成及其他

BriefGPT - AI 论文速递 ·

The Model is the Product

DemoChen's Clip ·

DeepSeek 的 AI 普及仍在进行中，尤其是 DeepSeek-R1 的推出使更多人首次接触 AI。推理模型在数学和逻辑上表现优异，而通用模型在创意和写作上更具优势。使用时应根据任务选择合适的模型，混合架构可能是未来的发展方向。

关于推理模型的一些误解和盲区

OneV's Den ·

本研究评估了通用模型与病理基础模型在细胞分割和分类中的表现差距，分析了补丁嵌入和不同编码器的效果，明确了两种模型的优缺点，为细胞病理学分析提供了指导。

Mind the Gap: Evaluating Patch Embeddings from General-Purpose and Histopathology Foundation Models for Cell Segmentation and Classification

BriefGPT - AI 论文速递 ·

本研究分析了医学基础模型在医疗任务中的有效性，发现其在零样本和少样本情况下并未显著优于通用模型。尽管经过微调后医学LLM性能有所提升，但这些改进无法应用于临床笔记任务，表明通用模型已展现出强大的医学知识和推理能力。

The Limited Impact of Large Language Models and Vision-Language Models in Medical Applications

BriefGPT - AI 论文速递 ·

本文探讨了多智能体系统在有限资源竞争环境中的学习与发展，提出了Avalon挑战集以提升深度强化学习的适应性。研究介绍了JARVIS-1智能体在Minecraft中完成任务的能力，以及V-IRL平台促进虚拟与现实世界的交互。此外，OSWorld基准评估多模态代理的计算任务能力，SIMA项目致力于在3D环境中训练智能代理，Pandora和Delta-IRIS推动了通用模型的构建与评估。

用Delta-Engine扩展虚拟世界

BriefGPT - AI 论文速递 ·

探索迁移学习在小数据场景中的潜力

KDnuggets ·

提出了适用于开放式分布式机器人系统的新型训练方案，通过构建伪训练数据集并用于学生模型的持续学习，最小化了对教师的假设。研究了通用模型，训练的学生可以递归地加入下一代开放教师集合。

递归蒸馏用于开放集分布式机器人定位

BriefGPT - AI 论文速递 ·

UPOCR是一种通用模型，用于统一的像素级光学字符识别接口。该模型通过图像转化和基于视觉Transformer的编码器-解码器结构统一了多样的OCR任务的范式，并引入可学习的任务提示使解码器具有任务感知性。实验结果显示，该方法在三个像素级OCR任务上表现出最先进的性能，为通用OCR模型的研究提供了有价值的策略和见解。