Meta推出V-JEPA 2,这是一种新型视频世界模型,旨在提升机器对物理环境的理解和预测能力。该模型经过两阶段训练,首先自监督预训练超过一百万小时的视频,然后在62小时的机器人数据上微调。V-JEPA 2在机器人操作任务中表现优异,成功率达65%至80%。
大型语言模型通过自监督预训练在自然语言处理上取得了显著进展。研究者们探索了复杂的语音标记化方法,以离散化连续语音信号。现有方法往往损失语义或声学信息。本文提出将梅尔滤波器通道离散化为强度箱(dMel),在语音识别和合成中表现优于其他方法,验证了语音与文本联合建模的有效性。
本研究提出了一种新型教师-学生多任务框架,以提高脓毒症死亡率预测的准确性。通过自监督预训练,该框架有效应对血管活性药物评分的动态变化和数据缺失问题,AUROC达到0.82,强调临床和社会因素在重症监护中的重要性,助力早期识别高风险患者。
本研究提出了一种基于视觉变换器的双流自监督预训练网络ViT-2SPN,旨在解决OCT诊断工具的数据集不足和隐私问题。通过OCTMNIST数据集进行自监督预训练,该方法在分类任务中实现了0.93的平均AUC和0.77的准确率,显著优于现有方法。
本研究提出了 J-Net 深度学习模型,旨在解决神经退行性疾病患者在不自主运动情况下的步态检测难题。通过自监督预训练和微调,该模型显著提升了步态检测的准确性,为相关研究提供了新资源。
本研究评估了自监督预训练(SSP)在心血管磁共振(CMR)电影分割中的应用。结果表明,SSP在标记数据稀缺时显著提升了分割性能,而在标记数据充足时未能提高深度学习方法的性能。这为心血管成像的自动化提供了新思路。
飞桨社区开发者肖淙曦和周景博在KDD2024上发表了论文《ReFound: Crafting a Foundation Model for Urban Region Understanding upon Language and Visual Foundations》,该研究构建了一个通用城市区域理解任务的基础模型,能够应用于多种下游任务。通过自监督预训练和知识蒸馏,该模型能够从多模态城市数据中学习领域知识,并提升泛化能力。实验证明该模型在不同下游任务中表现出色。相关代码已在PaddleSpatial平台上开源。
本研究对非刚性三维人体模型的形状检索算法进行了基准测试,使用25种方法在FAUST数据集上进行实验。结果表明,神经网络与人类认知的对齐性受训练数据集和目标函数的影响较大。提出的Sapiens模型系列通过自监督预训练在多个视觉任务中表现优异,尤其在数据稀缺情况下展现良好泛化能力。
本文探讨自注意力机制在语音识别中的应用,提出了双向Transformer和局部高效自我注意力等改进方法,以提升模型效率与性能。研究表明,简单的自监督预训练模型可与复杂模型媲美,结合卷积模块的语音转换器在ASR任务中表现优异。
本文介绍了一种名为FaceFormer的基于Transformer的自回归模型,用于声控3D面部动画。该模型通过自监督预训练解决数据稀缺问题,并优化了注意机制,实验结果显示其性能优于现有技术。此外,研究提出了多种方法改善语音驱动的面部动画效果,包括自适应调制模块和条件扩散模型,提升了唇部同步性和动画编辑效率。
本研究利用深度学习和静息态功能磁共振成像(fMRI)技术,探讨脑血流功能及损伤的检测,旨在早期预防脑血管疾病。提出的自监督预训练框架和一维CNN模型有效重建呼吸参数,降低fMRI研究成本。同时,研究了深度生成模型在生理信号中的应用,提出创新的fMRI预训练自编码器方法,提升脑活动解码的准确性。
本文介绍了自监督预训练技术在医学图像分析中的应用,包括Selfie、MaPeT和MiM等方法。这些技术通过掩蔽语言建模和局部遮罩,提升了图像分类、目标检测和疾病识别的性能,尤其在数据不足的情况下表现优越,能加速训练并提高准确性,推动计算机视觉的发展。
本研究探讨了神经网络学习权重如何充分利用可用空间,通过数据驱动的转换保留层的功能映射并揭示低秩结构。发现转换可以减少参数并保持准确性,自监督预训练可以提高利用率,适用于下游任务。
本文介绍了一种新颖的时间序列视觉变换器(TSViT)模型,旨在克服传统卷积神经网络在时间特征捕捉上的局限性。TSViT结合了卷积层和变压器编码器,能够有效进行故障诊断,实验结果显示在两个数据集上分别达到了100%和99.99%的准确率。此外,研究还提出了基于自监督预训练的时间序列表示模型(TSRM),显著提高了插补和预测的准确性,并减少了可训练参数。
本文探讨了活跃学习技术在文本分类中的应用,强调选择合适的文本表示、分类器和评估指标的重要性。研究结合自监督预训练和Balanced Selection算法,解决类不平衡问题,提升分类性能。此外,提出了多样性原则的查询策略和基于聚类的主动学习框架,以降低注释成本并提高学习效果。
本文介绍了多种新型文本到图像模型的开发,包括中英双语的 Taiyi-Diffusion-XL 和支持18种语言的 AltDiffusion。这些模型在图像生成和检索方面表现优异,尤其在文化特定概念理解上。此外,研究提出了 Diffusion Vision Transformers 和自监督预训练的文档图像变压器 DiT,均在多个任务中取得了最佳结果。还介绍了 De-Diffusion 方法和 TextCraftor 技术,显著提升了图像生成质量和效率。
本文研究了不同视觉基础模型在分割任务中的性能,发现DINO V2在多个数据集上表现优越。强调了稳健特征提取器的重要性,并提出了一种基于自监督预训练的轻量级模块,有效生成语义分割数据集的注释。此外,提出的知识迁移方法显著提升了小型任务模型的性能。
本文提出了一种具有旋转不变性的局部一致变换学习策略,解决了点云分析中的相对姿态丢失问题。通过结合对比学习和几何方法,提升了形状分类和部分分割任务的性能。此外,研究还介绍了无对应点云旋转配准方法和自监督预训练框架,均显示出优于现有方法的效果。
该论文提出了一种自监督预训练框架,通过神经辐射场实现多模态感知表示学习,提升三维感知任务的可迁移性。研究展示了多种方法的优越性,特别是在少样本学习和三维对象检测方面。
本文介绍了一种新的多项选择视频问题回答的训练方案,包括自监督预训练和监督对比学习。实验结果表明该模型在相关测试集上取得了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。