小红花·文摘

Meta推出V-JEPA 2，一种用于物理推理的视频世界模型

InfoQ ·

dMel：简化的语音标记化

Apple Machine Learning Research ·

本研究提出了一种新型教师-学生多任务框架，以提高脓毒症死亡率预测的准确性。通过自监督预训练，该框架有效应对血管活性药物评分的动态变化和数据缺失问题，AUROC达到0.82，强调临床和社会因素在重症监护中的重要性，助力早期识别高风险患者。

A Novel Multi-Task Teacher-Student Architecture with Self-Supervised Pretraining for 48-Hour Vasoactive Drug Trend Analysis in Sepsis Mortality Prediction

BriefGPT - AI 论文速递 ·

本研究提出了一种基于视觉变换器的双流自监督预训练网络ViT-2SPN，旨在解决OCT诊断工具的数据集不足和隐私问题。通过OCTMNIST数据集进行自监督预训练，该方法在分类任务中实现了0.93的平均AUC和0.77的准确率，显著优于现有方法。

Vision Transformer-based Dual-Stream Self-Supervised Pretraining Network for Retinal OCT Classification

BriefGPT - AI 论文速递 ·

本研究提出了 J-Net 深度学习模型，旨在解决神经退行性疾病患者在不自主运动情况下的步态检测难题。通过自监督预训练和微调，该模型显著提升了步态检测的准确性，为相关研究提供了新资源。

使用基础深度学习模型检测亨廷顿舞蹈病患者的日常生活步态

BriefGPT - AI 论文速递 ·

本研究评估了自监督预训练(SSP)在心血管磁共振(CMR)电影分割中的应用。结果表明，SSP在标记数据稀缺时显著提升了分割性能，而在标记数据充足时未能提高深度学习方法的性能。这为心血管成像的自动化提供了新思路。

Self-supervised Pretraining for Cardiovascular Magnetic Resonance Cine Segmentation

BriefGPT - AI 论文速递 ·

飞桨社区开发者肖淙曦和周景博在KDD2024上发表了论文《ReFound: Crafting a Foundation Model for Urban Region Understanding upon Language and Visual Foundations》，该研究构建了一个通用城市区域理解任务的基础模型，能够应用于多种下游任务。通过自监督预训练和知识蒸馏，该模型能够从多模态城市数据中学习领域知识，并提升泛化能力。实验证明该模型在不同下游任务中表现出色。相关代码已在PaddleSpatial平台上开源。

顶会论文深度解析｜基于飞桨实现的多模态城市基础模型

百度大脑 ·

本研究对非刚性三维人体模型的形状检索算法进行了基准测试，使用25种方法在FAUST数据集上进行实验。结果表明，神经网络与人类认知的对齐性受训练数据集和目标函数的影响较大。提出的Sapiens模型系列通过自监督预训练在多个视觉任务中表现优异，尤其在数据稀缺情况下展现良好泛化能力。

评估人类与图像模型中的多视角对象一致性

BriefGPT - AI 论文速递 ·

本文探讨自注意力机制在语音识别中的应用，提出了双向Transformer和局部高效自我注意力等改进方法，以提升模型效率与性能。研究表明，简单的自监督预训练模型可与复杂模型媲美，结合卷积模块的语音转换器在ASR任务中表现优异。

探讨自监督语音模型中自注意力机制的跨语言差异

BriefGPT - AI 论文速递 ·

本文介绍了一种名为FaceFormer的基于Transformer的自回归模型，用于声控3D面部动画。该模型通过自监督预训练解决数据稀缺问题，并优化了注意机制，实验结果显示其性能优于现有技术。此外，研究提出了多种方法改善语音驱动的面部动画效果，包括自适应调制模块和条件扩散模型，提升了唇部同步性和动画编辑效率。

MegActor-$\Sigma$: 利用扩散变换器实现肖像动画中的灵活混合模态控制

BriefGPT - AI 论文速递 ·

本研究利用深度学习和静息态功能磁共振成像（fMRI）技术，探讨脑血流功能及损伤的检测，旨在早期预防脑血管疾病。提出的自监督预训练框架和一维CNN模型有效重建呼吸参数，降低fMRI研究成本。同时，研究了深度生成模型在生理信号中的应用，提出创新的fMRI预训练自编码器方法，提升脑活动解码的准确性。

跨越成人生命周期的fMRI重建生理信号

BriefGPT - AI 论文速递 ·

本文介绍了自监督预训练技术在医学图像分析中的应用，包括Selfie、MaPeT和MiM等方法。这些技术通过掩蔽语言建模和局部遮罩，提升了图像分类、目标检测和疾病识别的性能，尤其在数据不足的情况下表现优越，能加速训练并提高准确性，推动计算机视觉的发展。

HySparK：大规模医学图像的混合稀疏掩蔽预训练

BriefGPT - AI 论文速递 ·

揭示神经网络学习子空间的利用秩

Apple Machine Learning Research ·

本文介绍了一种新颖的时间序列视觉变换器（TSViT）模型，旨在克服传统卷积神经网络在时间特征捕捉上的局限性。TSViT结合了卷积层和变压器编码器，能够有效进行故障诊断，实验结果显示在两个数据集上分别达到了100%和99.99%的准确率。此外，研究还提出了基于自监督预训练的时间序列表示模型（TSRM），显著提高了插补和预测的准确性，并减少了可训练参数。

ViTime：基于视觉智能的时间序列预测基础模型

BriefGPT - AI 论文速递 ·

本文探讨了活跃学习技术在文本分类中的应用，强调选择合适的文本表示、分类器和评估指标的重要性。研究结合自监督预训练和Balanced Selection算法，解决类不平衡问题，提升分类性能。此外，提出了多样性原则的查询策略和基于聚类的主动学习框架，以降低注释成本并提高学习效果。

一个带有类平衡策略的时间序列分类的主动学习框架

BriefGPT - AI 论文速递 ·

本文介绍了多种新型文本到图像模型的开发，包括中英双语的 Taiyi-Diffusion-XL 和支持18种语言的 AltDiffusion。这些模型在图像生成和检索方面表现优异，尤其在文化特定概念理解上。此外，研究提出了 Diffusion Vision Transformers 和自监督预训练的文档图像变压器 DiT，均在多个任务中取得了最佳结果。还介绍了 De-Diffusion 方法和 TextCraftor 技术，显著提升了图像生成质量和效率。

混元 - DiT：一种具有细粒度中文理解能力的强大多分辨率扩散变压器

BriefGPT - AI 论文速递 ·

本文研究了不同视觉基础模型在分割任务中的性能，发现DINO V2在多个数据集上表现优越。强调了稳健特征提取器的重要性，并提出了一种基于自监督预训练的轻量级模块，有效生成语义分割数据集的注释。此外，提出的知识迁移方法显著提升了小型任务模型的性能。

如何为语义分割基础模型进行基准测试？

BriefGPT - AI 论文速递 ·

本文提出了一种具有旋转不变性的局部一致变换学习策略，解决了点云分析中的相对姿态丢失问题。通过结合对比学习和几何方法，提升了形状分类和部分分割任务的性能。此外，研究还介绍了无对应点云旋转配准方法和自监督预训练框架，均显示出优于现有方法的效果。

非刚性点云形状对应的不变本地参考框架

BriefGPT - AI 论文速递 ·

该论文提出了一种自监督预训练框架，通过神经辐射场实现多模态感知表示学习，提升三维感知任务的可迁移性。研究展示了多种方法的优越性，特别是在少样本学习和三维对象检测方面。

NeRF-MAE: 自监督三维表示学习的遮罩自动编码器用于神经辐射场

BriefGPT - AI 论文速递 ·

本文介绍了一种新的多项选择视频问题回答的训练方案，包括自监督预训练和监督对比学习。实验结果表明该模型在相关测试集上取得了最先进的性能。

从确定到不确定的回答：针对视频问答的不确定性感知课程学习

BriefGPT - AI 论文速递 ·