BriefGPT - AI 论文速递 ·

MASH-VLM: Mitigating Action-Scene Hallucination in Video Large Language Models through Disentangled Spatial-Temporal Representations

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本文提出MASH-VLM，旨在解决视频大语言模型中的动作场景幻觉问题。通过引入DST-attention机制和Harmonic-RoPE，研究有效解耦时空特征，优化位置嵌入，减少错误预测。实验结果表明，MASH-VLM在基准测试中表现优异，具有良好的应用潜力。

🎯

🏷️

KeyCompute 新功能发布：缓存架构升级、数据库读写分离与多项体验优化
本次更新提升了 KeyCompute 的稳定性与用户体验，移除内存缓存，全面采用 Redis 作为缓存方案，实现主从数据库读写分离与自动路由，优化了国际化...
AWS Introduces Amazon S3 Annotations
AWS recently announced Amazon S3 Annotations, a feature that lets teams attac...
CCleaner 之后，有人重新做了一款开源清理工具：FluentCleaner
FluentCleaner 是一款新的开源 Windows 清理工具，旨在提供简单高效的清理功能。它使用社区维护的 winapp2.ini 清理规则，界面...
Claude Reaches GA on Microsoft Foundry: European Enterprises Cannot Deploy It
Claude models reached GA on Microsoft Foundry with Azure-native billing and g...
李飞飞署名具身新论文：Sim2Real烧不起，Real2Sim量大管饱
SimFoundry是由英伟达与多所高校合作开发的系统，利用真实视频自动生成可交互的机器人仿真环境。该系统通过提取、生成和增强三个阶段，创建数字孪生和数字...
刚刚，LeCun团队让世界模型学会持续学习！
纽约大学与LeCun初创公司AMI合作推出了AdaJEPA，旨在提升世界模型的持续学习能力。与传统模型不同，AdaJEPA能够在与环境交互时实时调整参数，...