本研究提出了一种新预训练方法RoboAct-CLIP,旨在提升机器人对原子动作的理解能力。通过构建新数据集和时间解耦的调整策略,实验结果表明该模型的成功率比基线高出12%。
该研究针对医疗记录诊断编码的准确性问题,提出了一种对比预训练方法,显著提升了自动化裁决性能,推动了学习型医疗系统的发展。
本研究提出了一种新方法,通过结合动作层次组织与上下文信息,显著提升动作识别效果。实验结果表明,该方法在相同超参数下的识别精度提高了17.12%,优于最新的预训练方法。
本研究提出了一种新的预训练方法,通过使用Segment Anything模型生成分割提案,并结合类别增强微调策略,提升可驾区域检测性能。在KITTI道路数据集上的实验结果优于传统方法,具有实际应用价值。
本文研究了计算病理学的视觉表征学习问题,通过利用大规模图像-文本对和病理学中的领域特定知识。首次构建了包含50,470个有信息量的属性、涵盖4,718种需要病理诊断的疾病的病理知识树。开发了基于知识增强的视觉-语言预训练方法,取得了显著的性能提高。将提供代码、模型和病理知识树给研究社群。
预训练方法在偏微分方程建模中具有潜力,但效果取决于模型和数据集选择。迁移学习和基于物理学的预训练策略效果最佳,数据增强可进一步提高性能。在稀缺数据环境下微调或推广到相似的下游数据时,预训练具有额外好处。未来希望在PDEs的预训练方法开发和评估方面有更多工作。
研究人员提出了一种新的预训练方法RAD-DINO,通过单模态医学图像数据进行预训练,取得了比基于生物医学语言的监督模型更好的性能。
本文介绍了一种基于去噪扩散概率模型(DDPM)的简单预训练方法,用于牙科放射图像的语义分割。该方法提高了标签效率,不需要修改架构,与现有的最先进的预训练方法相竞争。
该文章介绍了一种新的预训练方法Code-Switching Pre-training(CSP),通过跨语言对齐信息预先训练神经机器翻译模型。该方法通过词嵌入映射词典识别源语言和目标语言之间的单词替换,克服了传统模型的缺点。实验证明该方法在无监督和有监督的机器翻译任务上都有显著提高。
该文章介绍了一种名为VideoPrism的通用视频编码器,通过在异构语料库上预训练,改进了遮挡自编码模型的预训练方法,使得VideoPrism主要关注视频模式,同时利用与视频相关的宝贵文本。在四个广泛的视频理解任务组上进行了广泛的测试,实现了最优性能。
本文提出了一种用于长对话摘要的说话者增强的预训练方法,通过多轮对话的内在结构进行预训练,实验证明该模型在具有长上下文的基准测试中取得了最先进的性能,突出了方法的有效性。研究结果强调了构建多样化的预训练数据集的重要性。
该研究提出了一种面向分子联合自编码(MoleculeJAE)的预训练方法,能够学习分子的二维键和三维构象信息。MoleculeJAE通过扩增轨迹的弥散过程模型,以自我监督的方式学习分子的化学结构。在20个任务中,有15个任务达到了最先进的性能水平。
该文介绍了Lil-Bevo掩码语言模型的预训练方法,包括使用音乐数据进行初始预训练、逐步增加序列长度以及对特定令牌进行屏蔽。研究发现,训练较短的序列比训练较长的序列效果更好,预训练音乐对性能提升影响较小。针对性的掩码语言建模在一些特定的BLiMP任务上有帮助。
MENTOR是一种基于人类感知引导的虹膜展示攻击检测的预训练方法,通过学习人类显著性地图,在虹膜展示攻击检测任务中取得了显著的性能提升。该方法能够为未知虹膜展示攻击样本生成无限数量的人类样式显著性地图,提高了虹膜攻击检测模型训练的效率。本文提供源代码和权重。
该文介绍了一种名为SNIP的预训练方法,通过符号和数字领域之间的联合对比学习增强它们在预训练嵌入中的相似性。该方法在符号回归等任务上表现出色,能够有效地应用于各种任务,在少样本学习场景中始终优于全监督基线并与已确立的任务特定方法竞争激烈。
该论文介绍了 Tri-Distil-BERT 和 Mixed-Distil-BERT 两个多语言模型,能够在多个 NLP 任务上与更大的模型相竞争。这两个模型的两层预训练方法为多语言和混合代码语言理解提供了高效的选择。
该文章介绍了一种用于知识库问答任务的结构化知识感知的预训练方法(SKP)。该方法通过线性化策略和区间式关注机制,帮助模型编码复杂的子图并屏蔽无关子图的干扰。实验证明,SKP在子图检索方面有显著改进。
本文介绍了一种基于去噪扩散概率模型(DDPM)的简单预训练方法,用于牙科放射图像的语义分割。该方法在生成模型方面表现出令人印象深刻的结果,并在标签效率和预训练方面取得了显著性能。实验结果显示,该方法与现有的最先进的预训练方法相竞争。
SimLM是一种用于稠密段落检索的预训练方法,通过瓶颈架构将段落信息压缩成密集向量,并使用替换的语言建模目标来提高样本效率。实验证明,SimLM在多个大规模段落检索数据集上比强基线和ColBERTv2等方法都有显著改进。
DINO-v2是一种无监督学习的预训练方法,具有强大的泛化能力。该方法通过构建多样化的图像数据集、多层级训练、使用居中方法和正则化等技术贡献,实现了优秀的性能。作者还介绍了数据集准备、消除重复数据、自监督图像检索和判别式自监督预训练等步骤。实验结果表明,DINO-v2在多个图像理解任务上超过了其他方法。作者提供了项目主页和开源代码。
完成下面两步后,将自动完成登录并继续当前操作。