BriefGPT - AI 论文速递 ·

SS-MAE：用于多源遥感图像分类的空间 - 频谱屏蔽自编码器

💡 原文中文，约300字，阅读约需1分钟。

📝

内容提要

LC-MAE是一种自我监督学习框架，利用全局上下文理解视觉表示，减少输入的空间冗余。在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率，比基准模型提高了0.6%。在下游任务中，LC-MAE取得了显著的性能提升，并在多个鲁棒性评估指标上表现优异。

🎯

🏷️

花100多块钱做了个极空间NAS监控屏，固件已开源！
熊猫分享了一个DIY NAS监控屏项目，使用ESP开发板和Docker获取NAS信息。项目包括多页UI显示、触摸屏操作和Web后台设置，硬件为5寸LCD触...
VR 社交对音视频有什么要求？拆解 VR 社交的空间音频、范围语音、3D 音效
本文探讨了VR社交中的空间音频和范围语音技术，强调声音的方位和距离对沉浸感的重要性。通过Unity和Unreal引擎的集成，开发者可以实现3D音效和范围语...
Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...
本地多模态拳王Gemma 4 12B评测 | 无编码器架构详解
谷歌最新的Gemma 4 12B是一款轻量级多模态AI模型，采用无编码器架构，能够直接处理图像和音频，提升了效率和理解能力。其120亿参数使其在普通电脑上...
h5i Radio – 利用 Git，让 Claude 和 Codex 进行实时对话
h5i 是一个开源工具，支持多个 AI Agent（如 Claude 和 Codex）通过 Git 协作。其 Agent Radio 功能利用 Git 仓...
Inserting in Two Tables in a Single Round-Trip with JSON Duality Views in MySQL 9.7
A few months ago, I was asking myself how to insert in two tables in a single...