小红花·文摘 - 小红花技术领袖俱乐部

本文探讨了GPU中的驻留率（occupancy）及其对延迟隐藏的重要性。高驻留率并不总是意味着高性能，实际有效带宽在驻留率达到33%时已饱和。提高驻留率可能导致寄存器溢出，从而降低性能。计算密集型内核可通过指令级并行（ILP）实现高效，而不依赖于高驻留率。应平衡驻留率与寄存器使用，避免盲目追求高驻留率。

【GPU 算子工程】Occupancy 与延迟隐藏：寄存器、shared memory 的取舍

土法炼钢兴趣小组的博客 ·

本文介绍了GPU的执行模型，包括线程层次结构、物理映射和SIMT执行模型。CUDA的并行模型分为grid、block和thread，block在SM上调度，warp是32个线程的执行单位。分支发散会导致性能下降，occupancy是SM上驻留warp的比率，影响延迟隐藏。高occupancy并不总是意味着高性能，需要综合考虑寄存器和共享内存的使用。

【GPU 算子工程】GPU 执行模型：SM、warp、线程层次与 occupancy

土法炼钢兴趣小组的博客 ·

机器之心数据服务已上线，提供高效稳定的数据获取，简化数据爬取流程。

全球首个人形机器人通用视觉感知系统，Humanoid Occupancy建立多模态环境理解新范式

机器之心 ·

本研究提出了一种概率高斯叠加模型，解决了3D语义占用预测中忽视空间稀疏性的问题。该模型通过将每个高斯视为邻域被占用的概率分布，提高了对空区域的描述效率。实验结果表明，该方法在nuScenes和KITTI-360数据集上表现优异，达到了先进性能。

GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction

BriefGPT - AI 论文速递 ·

本研究提出了一种新型无校准空间变换方法，利用简单注意力机制提升三维语义占用预测的速度和精度，展现出在复杂环境中的应用潜力。

Robust 3D Semantic Occupancy Prediction with Uncalibrated Spatial Transformation

BriefGPT - AI 论文速递 ·

本研究提出了OccRWKV网络，旨在解决三维语义占用预测中的精度与延迟平衡问题。通过分支处理语义、占用预测和特征融合，显著提高了预测精度并降低了计算开销，适合实时部署于自主导航机器人。

OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity

BriefGPT - AI 论文速递 ·