BriefGPT - AI 论文速递 ·

绘制与理解：利用视觉提示使 MLLMs 能够理解您想要的内容

📝

内容提要

我们介绍了 Draw-and-Understand 项目，其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了 SPHINX-V，一种新的端到端训练的多模域大型语言模型，用于连接视觉编码器、视觉提示编码器和语言理解模型，以实现各种视觉提示和语言理解。同时，我们还提出了 MDVP-Data 和...

➡️

继续阅读

RoboTTT——面向机器人策略的上下文扩展：将TTT集成至VLA中以推理时建立记忆信息，从而将视觉-运动上下文扩展到 8K 个时间步
摘要：本文提出RoboTTT方法，通过将测试时训练（TTT）机制整合到机器人基础模型中，实现了8K时间步的长视觉-运动上下文建模。该方法采用快速权重机制，...
国内首个！阿里健康氢离子达成NEJM、JAMA、BMJ三大医学顶刊内容合作
苹果更新TestFlight应用对于参与大量测试的玩家现在可以使用搜索功能
# 软件资讯苹果更新 TestFlight 应用，对于参与大量测试的玩家来说，现在可以使用底部的搜索框快速找到应用。为避免误解所以需要说明，搜索功能仅可...
Mimic Minds 扩展面向品牌、教育和企业的实时 3D AI 虚拟形象平台
2026年7月21日，Mimic Minds公司扩展了其实时 3D AI 虚拟形象平台，旨在帮助品牌、教育机构和企业创建栩栩如生的数字人，用于客户互动、学...
我在WAIC 2026看见的十大趋势
没有人因此热情减退
Skill、Subagent 与 Agent 究竟是什么？从一个月度总结实战谈 AI 原生架构
本文通过一个真实的“仓库月度自动统计与总结报告”落地需求，深入剖析 Skill、Subagent 和 Agent 三者的本质区别、协作模式与持久化原理，帮...