小红花·文摘

基于长音频编码的分段注意力解码

Apple Machine Learning Research ·

解码图像分割：从基本像素到全景完美

DEV Community ·

本研究提出了SpikeVideoFormer，一种高效的脉冲驱动视频变换器，采用汉明注意力和线性时间复杂度。该模型在视频分类、人类姿态跟踪和语义分割等任务中表现优越，显著提升了脉冲神经网络的能效和性能。

SpikeVideoFormer: 一种高效的脉冲驱动视频变换器，具有汉明注意力和 $\mathcal{O}(T)$ 复杂度

BriefGPT - AI 论文速递 ·

该研究推出了名为MESSI的多高度语义分割图像数据集，包含2525幅无人机拍摄的城市图像，旨在解决数据不足问题并提供标准化评估基准。

多高度语义分割图像数据集（MESSI）在城市环境中的应用

BriefGPT - AI 论文速递 ·

本研究提出了一种名为ClassWise-CRF的类别特定融合架构，旨在提升遥感影像的语义分割精度。该架构通过选择表现优异的专家网络进行分类预测融合，并动态调整权重，验证了其在两个遥感数据集上的有效性。

ClassWise-CRF: Category-Specific Fusion for Enhanced Semantic Segmentation of Remote Sensing Imagery

BriefGPT - AI 论文速递 ·

本研究提出了一种可转移掩码变换器（TMT），旨在解决预训练视觉变换器在新目标域适应时性能下降的问题。该方法通过空间可转移性分析提升跨域表示的对齐，在语义分割任务中MIoU平均提升2%。

Transferable Mask Transformer: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation

BriefGPT - AI 论文速递 ·

本文介绍了Turin3D数据集，覆盖都灵市中心约1.43平方公里，包含近7000万个点，旨在解决城市建模中的标签稀缺问题。通过比较多种点云语义分割模型的性能并应用半监督学习技术，显著提升了模型表现。该数据集将公开发布，推动户外点云分割研究的发展。

Turin3D：在城市LiDAR分割中评估标签稀缺下的适应策略

BriefGPT - AI 论文速递 ·

实时无人机视觉系统以111 FPS处理空中图像，同时识别物体和距离

DEV Community ·

本研究提出了一种新颖的上下文感知语义分割框架，结合大型语言模型与先进视觉网络，解决了现有模型在捕获对象间上下文和语义关系的不足。该模型在像素级精度和上下文理解上优于现有方法，推动了自主驾驶、医学影像和机器人等智能视觉系统的发展。

Context-Aware Semantic Segmentation: Enhancing Pixel-Level Understanding with Large Language Models for Advanced Vision Applications

BriefGPT - AI 论文速递 ·

本研究探讨了如何有效提示视觉-语言模型进行语义分割，并评估不同提示对模型性能的影响。结合文本与视觉提示显著提升了模型性能，提出的PromptMatcher在少样本语义分割中表现优异。

Show or Describe? Effectively Prompting Vision-Language Models for Semantic Segmentation

BriefGPT - AI 论文速递 ·

本研究探讨了关键值变换器（KV Transformer）在语义分割中的应用，旨在解决变换器的计算复杂性和数据依赖性问题。研究表明，KV 变换器在降低模型复杂性的同时，能保持与传统实现相似的性能，适用于医学成像等需要局部推理的场景。

Exploring the Integration of Key-Value Attention in Pure and Hybrid Transformers for Semantic Segmentation

BriefGPT - AI 论文速递 ·

本研究针对无人驾驶飞行器在低空环境中的几何和语义信息理解问题，提出了一种联合深度学习架构，能够快速且准确地进行深度和语义分割。实验结果显示，该方法在MidAir和Aeroscapes数据集上表现优异，预测速度达到20.2帧每秒。

Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation for Aerial Images

BriefGPT - AI 论文速递 ·

本研究提出了一种NTN方法，解决了激光雷达语义分割在恶劣天气下对“事物”类别预测不准确的问题，通过特征绑定和正则化显著提升了准确性和鲁棒性。

No Objects, No Issues: Emphasizing Safety-Critical Categories to Enhance the Reliability of LiDAR Semantic Segmentation in Adverse Weather

BriefGPT - AI 论文速递 ·

本研究提出了一种连续值嵌入框架，以提高语义分割的准确度。该方法通过将语义掩码生成重构为连续的图像到嵌入的扩散过程，保留细粒度空间和语义细节，消除对离散潜在表示的需求。实验结果表明，该方法在应对分布变化和噪声适应能力方面表现优越，具有显著的鲁棒性。

基于长音频编码的分段注意力解码

解码图像分割：从基本像素到全景完美

SpikeVideoFormer: 一种高效的脉冲驱动视频变换器，具有汉明注意力和 $\mathcal{O}(T)$ 复杂度

多高度语义分割图像数据集（MESSI）在城市环境中的应用

ClassWise-CRF: Category-Specific Fusion for Enhanced Semantic Segmentation of Remote Sensing Imagery

Transferable Mask Transformer: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation

Turin3D：在城市LiDAR分割中评估标签稀缺下的适应策略

实时无人机视觉系统以111 FPS处理空中图像，同时识别物体和距离

Context-Aware Semantic Segmentation: Enhancing Pixel-Level Understanding with Large Language Models for Advanced Vision Applications

Show or Describe? Effectively Prompting Vision-Language Models for Semantic Segmentation

Exploring the Integration of Key-Value Attention in Pure and Hybrid Transformers for Semantic Segmentation

Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation for Aerial Images

No Objects, No Issues: Emphasizing Safety-Critical Categories to Enhance the Reliability of LiDAR Semantic Segmentation in Adverse Weather

CAM-Seg: A Continuous-valued Embedding Method for Semantic Image Generation

LangDA：通过语言构建领域自适应语义分割的上下文感知

Point Cloud Based Scene Segmentation: A Survey

Clever Distiller: A Simple and Spatially Consistent Cross-Modal Distillation

透明物体也能被机器人抓起来了，单目的那种 | ICRA 2025

COARSE: Collaborative Pseudo-Labeling with Coarse Real Labels for Off-Road Semantic Segmentation

Application of Multi-Scale Neighborhood Occupancy Masked Autoencoder in Self-Supervised Learning of LiDAR Point Clouds