小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

这篇文章讨论了测试时回归框架,强调序列模型在机器学习中的重要性。演讲者Alex Wang介绍了通过关联记忆理解现代序列模型,特别是在个性化医疗中的应用。他探讨了不同架构如何利用关联记忆进行预测,并提出了非参数回归的概念,以提高模型的灵活性和性能。

测试时回归 - Alex Wang | ASAP研讨会 #01

Josherich的博客
Josherich的博客 · 2025-02-19T00:00:01Z

本研究提出了一个统一框架,强调序列模型需要具备联想记忆能力。通过结合输入令牌的记忆与测试时间回归,揭示了现代模型设计的多种选择,推动了更强大且原则性的序列模型的发展。

Test-Time Regression: A Unifying Framework for Designing Sequence Models with Associative Memory

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-21T00:00:00Z
结合计算机视觉和机器人领域中的下一个标记预测与视频扩散

麻省理工学院CSAIL开发了一种名为“Diffusion Forcing”的序列模型训练技术,结合扩散模型和教师强制的优点。该方法通过对标记添加噪声,实现灵活的序列生成,提升视频质量和机器人决策精度。实验显示其能忽略误导数据,生成稳定视频,并在迷宫任务中表现优异。研究团队计划扩大数据集并使用最新Transformer模型以提高性能。

结合计算机视觉和机器人领域中的下一个标记预测与视频扩散

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2024-10-16T20:10:00Z

本文提出了一种加速长卷积序列模型推断的方法,将时间复杂度降低至近线性 $O(L ext{log}^2L)$。实验结果显示,该方法在性能上显著提升,尤其在位置混合部分实现了 $50 imes$ 的改进。

Flash Inference: Near Linear Time Inference for Long Convolution Sequence Models and Beyond

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z
无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散

麻省理工学院计算机科学与人工智能实验室的研究团队提出了一种名为Diffusion Forcing(DF)的训练和采样范式,它结合了完整序列扩散和下一个标记预测模型的优势。DF在一致性和稳定性方面优于其他方法。框架中的每个标记都与随机噪声水平相关联,并使用共享的下一个标记预测模型对标记进行去噪。DF能够生成不同长度的序列并推广到新的轨迹。团队还将DF应用于序列决策,并取得了有希望的结果。DF在稳定序列生成、保持未来不确定性、长期引导和灵活奖励引导方面具有优势。团队在视频预测、扩散规划和模仿学习等各种应用中评估了DF,并发现DF是一个强大而多功能的序列模型。

无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散

机器之心
机器之心 · 2024-07-23T03:04:45Z

本文提出了一种新方法,通过结合序列模型和多重转换来提升超声重建性能。研究发现,长期依赖与扫描协议长度相关,解剖图像内容的调整会影响重建准确性。新算法有效利用长期依赖,优化了超声重建的模型开发与应用。

无需跟踪器的手持超声无刚性重建

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

U-Mamba是一种基于深度序列模型的医学图像分割网络,结合卷积层和序列模型的优点,适应不同数据集并超越现有分割网络。新架构Mamba-UNet和VM-UNet通过引入视觉状态空间块显著提升分割性能。Swin-UMamba和SegMamba在多个数据集上表现优异,适合移动健康应用。Semi-Mamba-UNet采用半监督学习,解决长程依赖问题,推动医学图像分类和分割的进展。

基于大窗口的 Mamba UNet 用于医学影像分割:超越卷积和自注意力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

U-Mamba是一种通用的医学图像分割网络,融合了卷积层和序列模型的能力,能够在各种任务中取得优于当前基于CNN和Transformer的分割网络的结果。

U-Mamba: 提高生物医学图像分割的长程依赖性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-09T00:00:00Z

本文提出了一种用于句内事件时间关系分类的序列模型,评估表明该方法准确识别事件时间关系,胜过基于特征的模型。

多类别学习中用于时序关系分类的动态更新事件表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

本文介绍了一种名为Mega的单头门控注意力机制,通过将整个序列分成多个具有固定长度的块,实现了线性时间和空间复杂度。在长序列建模、神经机器翻译、自回归语言建模以及图像和语音分类等测试中,Mega优于其他序列模型,包括Transformer的变体和最近的状态空间模型。

快速多极注意力:一种长序列的分而治之注意机制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

该研究提出了一种新的方法,通过结合序列模型和多重转换预测,利用参数化长期依赖来提高重建超声的性能。实验证明,该算法利用超参数调整方法有效地利用长期依赖,并在数据收集、扫描协议调整和网络开发方面具有实际意义。

无外部跟踪器的自由手势超声波三维重建的长期依赖性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-16T00:00:00Z

本文介绍了一种名为Mega的单头门控注意力机制,具有指数移动平均数以将位置感知的局部依赖性的归纳偏差纳入位置不可知的注意力机制中。该文进一步提出了Mega的变体,通过将整个序列有效地分成多个具有固定长度的块以实现线性时间和空间复杂度。在长序列建模、神经机器翻译、自回归语言建模以及图像和语音分类等广泛测试中,证明了Mega优于其他序列模型,包括Transformer的变体和最近的状态空间模型。

Habana Gaudi 处理器上大型语言模型的基准测试与深入性能研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码