小红花·文摘

这篇文章讨论了测试时回归框架，强调序列模型在机器学习中的重要性。演讲者Alex Wang介绍了通过关联记忆理解现代序列模型，特别是在个性化医疗中的应用。他探讨了不同架构如何利用关联记忆进行预测，并提出了非参数回归的概念，以提高模型的灵活性和性能。

测试时回归 - Alex Wang | ASAP研讨会 #01

Josherich的博客 ·

本研究提出了一个统一框架，强调序列模型需要具备联想记忆能力。通过结合输入令牌的记忆与测试时间回归，揭示了现代模型设计的多种选择，推动了更强大且原则性的序列模型的发展。

Test-Time Regression: A Unifying Framework for Designing Sequence Models with Associative Memory

BriefGPT - AI 论文速递 ·

结合计算机视觉和机器人领域中的下一个标记预测与视频扩散

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

本文提出了一种加速长卷积序列模型推断的方法，将时间复杂度降低至近线性 $O(L ext{log}^2L)$。实验结果显示，该方法在性能上显著提升，尤其在位置混合部分实现了 $50 imes$ 的改进。

Flash Inference: Near Linear Time Inference for Long Convolution Sequence Models and Beyond

BriefGPT - AI 论文速递 ·

无限生成视频，还能规划决策，扩散强制整合下一token预测与全序列扩散

机器之心 ·

本文提出了一种新方法，通过结合序列模型和多重转换来提升超声重建性能。研究发现，长期依赖与扫描协议长度相关，解剖图像内容的调整会影响重建准确性。新算法有效利用长期依赖，优化了超声重建的模型开发与应用。

无需跟踪器的手持超声无刚性重建

BriefGPT - AI 论文速递 ·

U-Mamba是一种基于深度序列模型的医学图像分割网络，结合卷积层和序列模型的优点，适应不同数据集并超越现有分割网络。新架构Mamba-UNet和VM-UNet通过引入视觉状态空间块显著提升分割性能。Swin-UMamba和SegMamba在多个数据集上表现优异，适合移动健康应用。Semi-Mamba-UNet采用半监督学习，解决长程依赖问题，推动医学图像分类和分割的进展。

基于大窗口的 Mamba UNet 用于医学影像分割：超越卷积和自注意力

BriefGPT - AI 论文速递 ·

U-Mamba是一种通用的医学图像分割网络，融合了卷积层和序列模型的能力，能够在各种任务中取得优于当前基于CNN和Transformer的分割网络的结果。

U-Mamba: 提高生物医学图像分割的长程依赖性

BriefGPT - AI 论文速递 ·

本文提出了一种用于句内事件时间关系分类的序列模型，评估表明该方法准确识别事件时间关系，胜过基于特征的模型。

多类别学习中用于时序关系分类的动态更新事件表示

BriefGPT - AI 论文速递 ·

本文介绍了一种名为Mega的单头门控注意力机制，通过将整个序列分成多个具有固定长度的块，实现了线性时间和空间复杂度。在长序列建模、神经机器翻译、自回归语言建模以及图像和语音分类等测试中，Mega优于其他序列模型，包括Transformer的变体和最近的状态空间模型。

快速多极注意力：一种长序列的分而治之注意机制

BriefGPT - AI 论文速递 ·

该研究提出了一种新的方法，通过结合序列模型和多重转换预测，利用参数化长期依赖来提高重建超声的性能。实验证明，该算法利用超参数调整方法有效地利用长期依赖，并在数据收集、扫描协议调整和网络开发方面具有实际意义。

无外部跟踪器的自由手势超声波三维重建的长期依赖性

BriefGPT - AI 论文速递 ·

本文介绍了一种名为Mega的单头门控注意力机制，具有指数移动平均数以将位置感知的局部依赖性的归纳偏差纳入位置不可知的注意力机制中。该文进一步提出了Mega的变体，通过将整个序列有效地分成多个具有固定长度的块以实现线性时间和空间复杂度。在长序列建模、神经机器翻译、自回归语言建模以及图像和语音分类等广泛测试中，证明了Mega优于其他序列模型，包括Transformer的变体和最近的状态空间模型。

Habana Gaudi 处理器上大型语言模型的基准测试与深入性能研究

BriefGPT - AI 论文速递 ·