小红花·文摘

本文介绍了一种在移动设备上部署的自监督学习模型，用于学习通用音频表示。该模型利用时间上下文来估计音频片段之间的时间间隔，并重建时间频谱图切片。研究表明，该模型在多个下游任务中可重复使用，性能接近全监督模型。

完全自监督的二分类节奏估计

BriefGPT - AI 论文速递 ·

本文介绍了一种在移动设备上部署的自监督学习模型，用于学习通用音频表示。该模型利用频谱图域中的时间上下文，通过估计音频片段之间的时间间隔或重建时间频谱图切片来学习。研究表明，这种模型可以在多个下游任务中重复使用，并且与全监督模型的性能接近。

音频分类中最佳时间支持的选择与预训练嵌入

BriefGPT - AI 论文速递 ·

本研究提出了一种新的训练3D手势估计模型的框架，使用自监督学习模型（TASSN）从仅具有2D信息的视频中学习。通过强制时间一致性约束，TASSN可以学习从视频中推断3D手势和网格的技能，并且实验证明了该模型的3D估计精度与目前最先进的基于3D注释的模型在同等级别上，强调了时间一致性在限制3D预测模型方面的优点。

基于时间感知的视频人体姿态与形状恢复的改进

BriefGPT - AI 论文速递 ·

该研究介绍了针对南美洲土著语言Quechua的ASR语料库，并评估了自监督学习模型在Quechua语和其他6种土著语言上的效果，结果表明自监督学习模型表现出了惊人的性能。

评估自监督语音表示对美国土著语言的应用

BriefGPT - AI 论文速递 ·

本文提出了一种新方法，通过自监督学习模型形成注意机制，从目标话语中提取风格信息并将其转移到源语音内容，实现目标说话者的说话风格再现。实验证明该方法与扩散式生成模型结合能在任何语音转换任务中实现更好的说话者相似性，并且对于长话语的计算复杂度增加的抑制效果较好。

样式手册：只使用语音数据进行任意 - 任意语音转换的内容相关说话风格建模

BriefGPT - AI 论文速递 ·

本文研究了自监督学习模型的学习动态，提出了施加权重正交性约束的目标函数，并证明了无限宽度逼近的自监督学习模型与监督模型的神经切向核逼近存在偏差。数值实验证明了理论发现的正确性，并为对比和非对比自监督学习提供了框架。

自监督模型的表示学习动态

BriefGPT - AI 论文速递 ·