BriefGPT - AI 论文速递 ·

xT：用于大图像中更大上下文的嵌套标记化

💡 原文中文，约400字，阅读约需1分钟。

📝

内容提要

现代计算机视觉处理大图像的方式有降采样和裁剪，但会导致信息和上下文损失。研究人员提出了xT框架，可以在GPU上对大图像进行全局上下文与局部细节的建模。通过引入嵌套分词方案，可以提高准确度和F1分数，适用于大图像中的上下文相关分割。

🎯

关键要点

现代计算机视觉处理大图像的方式主要有降采样和裁剪。
降采样和裁剪会导致图像信息和上下文的严重损失。
研究人员提出了xT框架，可以在GPU上有效建模大图像的全局上下文与局部细节。
xT框架在经典视觉任务的基准数据集上进行了评估，显示出对大图像理解和细节融合的能力。
通过引入嵌套分词方案，xT框架在分类任务中提高了准确度和F1分数，分别提高了8.6%和11.6%。
该框架适用于大图像中的上下文相关分割。

🏷️

继续阅读

RoboTTT——面向机器人策略的上下文扩展：将TTT集成至VLA中以推理时建立记忆信息，从而将视觉-运动上下文扩展到 8K 个时间步
摘要：本文提出RoboTTT方法，通过将测试时训练（TTT）机制整合到机器人基础模型中，实现了8K时间步的长视觉-运动上下文建模。该方法采用快速权重机制，...
苹果更新TestFlight应用对于参与大量测试的玩家现在可以使用搜索功能
# 软件资讯苹果更新 TestFlight 应用，对于参与大量测试的玩家来说，现在可以使用底部的搜索框快速找到应用。为避免误解所以需要说明，搜索功能仅可...
Mimic Minds 扩展面向品牌、教育和企业的实时 3D AI 虚拟形象平台
2026年7月21日，Mimic Minds公司扩展了其实时 3D AI 虚拟形象平台，旨在帮助品牌、教育机构和企业创建栩栩如生的数字人，用于客户互动、学...
我在WAIC 2026看见的十大趋势
没有人因此热情减退
Skill、Subagent 与 Agent 究竟是什么？从一个月度总结实战谈 AI 原生架构
本文通过一个真实的“仓库月度自动统计与总结报告”落地需求，深入剖析 Skill、Subagent 和 Agent 三者的本质区别、协作模式与持久化原理，帮...
OpenAI官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台HuggingFace
#安全资讯 OpenAI 官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台 Hugging Face，这起黑客攻击事件源头竟然是 OpenAI 测试模型...

内容提要

关键要点

标签

继续阅读