BriefGPT - AI 论文速递 ·

使用二进制球面量化对图像和视频进行令牌化

💡 原文中文，约700字，阅读约需2分钟。

📝

内容提要

研究人员提出了一种名为“随机共振变压器”（SRT）的零样本方法，通过子标记空间平移扰动输入图像，改善了Vision Transformers（ViTs）中的量化伪像问题。SRT可以有效地超分辨率预训练ViTs的特征，捕捉到更多的局部细粒度结构，并在多个任务上展现改进效果，无需微调。

🎯

关键要点

研究人员发现 Vision Transformers（ViTs）中存在量化伪像，源于图像令牌化步骤。
提出了一种名为“随机共振变压器”（SRT）的零样本方法，旨在改善预训练 ViTs 处理空间量化的方式。
SRT 通过子标记空间平移扰动输入图像，捕捉更多局部细粒度结构，提升特征超分辨率。
SRT 可应用于任何层和任务，无需微调，特别在单目深度预测中效果显著。
在三种不同架构上，SRT 在 RMSE 和 RMSE-log 指标上分别提高了 4.7% 和 14.9%。
在半监督视频目标分割中，SRT 平均提高了 2.4% 的 F&J 分数。
SRT 在无监督显著区域分割上平均提高了 2.1% 的 maxF 指标。
尽管 SRT 基于像素级特征操作，但也适用于图像检索和目标发现等非密集预测任务，分别提高了 2.6% 和 1.0%。

🏷️

继续阅读

兄弟（中国）携核心产品矩阵及场景化解决方案参加成都教育展
兄弟（中国）在成都教育展展示了其核心产品和解决方案，涵盖智慧教学、学生兴趣培养和校园管理，旨在提升教育质量和管理效率。
《面向移动终端的超高清视频分发格式规范》标准解读
国家广播电视总局发布了GY/T 427—2026标准，旨在规范移动终端超高清视频分发，提升用户体验，支持国产HDR技术，并明确终端解码能力要求。节目平台需...
派早报：阿里巴巴发布视频生成模型 HappyHorse 1.0 等
阿里巴巴于4月27日发布了视频生成模型HappyHorse 1.0，面向专业创作者和普通用户开放测试。该模型支持文本和图像生成视频，最长可生成15秒的视频...
Luma 视频生成 API 对接说明
Luma 视频生成 API 允许用户通过输入提示词生成高质量视频。用户需注册获取凭证，支持自定义首尾帧和视频扩展功能，并提供异步回调以处理较长生成请求。
关于GitHub可用性的更新
GitHub首席技术官弗拉德·费多罗夫致力于提升开发者生产力，领导工程团队创新开发工具。他曾在Facebook和微软工作，现任Codepath.org董事...
高中生如何从「认知觉醒」走向「认知驱动」
高中生因升学压力熬夜做作业，家长和老师对此表示担忧。学生缺乏内在动力，学习效率低下。建议学生从认知觉醒转向认知驱动，建立良好作息和学习习惯，设定小目标逐步...

使用二进制球面量化对图像和视频进行令牌化

内容提要

关键要点

标签

继续阅读