小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
语音增强中的自监督学习:从无配对训练到基础模型先验

语音增强(SE)面临数据、目标和任务等挑战,自监督学习(SSL)逐渐成为解决方案。SSL通过未配对数据学习和生成式方法,重塑了SE的训练目标。研究表明,SSL特征在增强任务中有效,未来将关注多任务统一增强、低信噪比生成模型及可控的语音生成。整体来看,SSL为SE提供了更强的先验和设计空间。

语音增强中的自监督学习:从无配对训练到基础模型先验

实时互动网
实时互动网 · 2026-06-03T06:35:16Z
基于高斯过程的自监督学习

自监督学习(SSL)是一种无标签样本的机器学习方法。本文提出高斯过程自监督学习(GPSSL),通过高斯过程模型改进表示学习,克服传统SSL在生成相似观察对和不确定性量化方面的局限。GPSSL引入高斯先验,优化表示空间,实验结果显示其在分类和回归任务中优于传统方法,提高了准确性和不确定性控制。

基于高斯过程的自监督学习

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-30T00:00:00Z
低门槛试用Open-AutoGLM:屏幕理解+自动执行的智能体体验;Spatial-SSRL-81k构建空间感知的自监督提升路径

智谱AI推出手机端智能助理框架Open-AutoGLM,利用视觉语言模型实现屏幕内容的深度理解与自动化操作。用户可通过自然语言指令完成任务,系统确保安全性并支持远程调试,已覆盖50余款主流应用,逐步成为全场景智能助手。

低门槛试用Open-AutoGLM:屏幕理解+自动执行的智能体体验;Spatial-SSRL-81k构建空间感知的自监督提升路径

HyperAI超神经
HyperAI超神经 · 2025-12-15T07:10:51Z
将自监督表示调整为高效生成的潜在空间

本文介绍了一种生成建模框架RepTok,该框架通过自监督视觉变换器获取单一连续潜在标记来表示图像。该方法在预训练的SSL编码器基础上微调语义标记嵌入,并与生成解码器联合训练。通过添加余弦相似度损失,保持潜在空间的平滑性。RepTok在ImageNet生成和文本到图像合成中表现出色,展示了微调SSL表示作为有效潜在空间的潜力。

将自监督表示调整为高效生成的潜在空间

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-04T00:00:00Z
利用音视频数据缩小自监督语音模型中的多语言差距

本文探讨了通过引入有限视觉信息来减少自监督语音模型在多语言环境中的性能差距。研究表明,视觉信息对单语和双语模型均有益,尤其是双语模型的表现显著提升,零样本音素区分的多语言性能差距从31.5%降至8.04%。

利用音视频数据缩小自监督语音模型中的多语言差距

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-25T00:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA

机器之心
机器之心 · 2025-09-19T02:12:16Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源

机器之心
机器之心 · 2025-08-15T03:42:14Z
DiceHuBERT:基于自监督学习目标的HuBERT知识蒸馏

本文介绍了DiceHuBERT,一种用于压缩HuBERT的知识蒸馏框架。与传统方法不同,DiceHuBERT通过直接替换原始模型为学生模型,利用HuBERT的自蒸馏机制进行训练。实验结果显示,DiceHuBERT在音素识别和自动语音识别(ASR)性能上显著优于现有方法,提升超过21%和14%。

DiceHuBERT:基于自监督学习目标的HuBERT知识蒸馏

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-08T00:00:00Z

微软亚洲研究院与清华、北大联合提出强化预训练(RPT),将强化学习深度融入大语言模型(LLM)预训练,提升模型的推理能力和下一个token预测准确度。实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力和潜力。

MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B

量子位
量子位 · 2025-06-11T08:49:11Z
基础模型隐藏表示在听诊中用于心率估计

本文研究了六种自监督声学表示模型在心率估计中的表现,发现预训练模型的表示向量与基线方法相当,而自家CLAP模型在心率估计上表现更佳,误差更低。

基础模型隐藏表示在听诊中用于心率估计

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-28T00:00:00Z

本研究提出了一种新的自监督正样本采样技术(SSPS),有效克服了传统说话人验证方法的局限性。SSPS显著提高了验证性能,SimCLR-SSPS的错误率降低了58%,与DINO-SSPS表现相当。

Self-Supervised Positive Sample Sampling for Robust Self-Supervised Speaker Verification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种新型自监督图表示学习方法Graffe,旨在解决扩散概率模型在图表示学习中的应用不足。该模型通过图编码器提炼源图,并指导扩散解码器去噪,从而在节点和图分类任务中实现领先性能。

Graffe: Graph Representation Learning via Diffusion Probabilistic Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究解决了共享单车系统中检测故障单车的难题,提出了一种新颖的自监督变压器框架(SSTransformer),有效结合了GPS轨迹和行程记录的时空特征。通过自监督预训练和后续的微调,该模型在真实数据集上的测试中显示出显著优于传统检测方法的性能,实现了高达97.81%的准确率,显著提高了共享单车的维护效率。

一种自监督变压器用于不可用共享单车检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-02T00:00:00Z

本研究提出了一种名为VCM的自监督视觉概念建模框架,旨在提高大型视觉-语言模型的效率。该方法通过隐式对比学习和视觉-语言微调,显著降低计算成本,同时在图像理解任务中保持优良性能。

Vision Concept Modeling Based on Implicit Contrastive Learning: Vision-Language Instruction Fine-Tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究解决了医学成像中标签获取困难的问题,通过引入nn-MobileNet框架,采用BERT式自监督学习方法,利用大量未标记的视网膜图像进行预训练,以提高下游应用的性能。研究结果表明,此方法在阿尔茨海默病、帕金森病及多种视网膜疾病的识别中显著提升了表现,展示了在标签稀缺情况下,CNN的潜力。

一种基于BERT风格的自监督学习CNN用于视网膜图像疾病鉴定

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-25T00:00:00Z

本研究解决了当前大规模语言模型(LLM)推理技术对外部监督信号的依赖问题,提出了一种名为Genius的完全自监督自训练框架。通过引入逐步预见重采样策略和优势校准优化损失函数,Genius能够在没有外部辅助的情况下优化LLM,显著提升其推理能力,具有革命性的潜力。

天才:一种可推广的纯自监督自训练框架用于高级推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-11T00:00:00Z

本研究提出了一种自监督片段微调方法(SF²T),旨在提升视频大语言模型在细粒度理解方面的能力。通过利用视频特征进行训练,改善模型对视觉动态和细节的理解。同时,构建了新的基准数据集FineVidBench,以评估模型在场景和片段层面的表现,实验结果显示该方法显著提高了时空细节的捕捉和解释能力。

SF2T: Self-Supervised Fragment Fine-Tuning of Video Large Language Models for Fine-Grained Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究提出了一种动态数据集修剪策略,以解决自监督学习在地球观察中的数据集策划不足问题,提升预训练数据集的多样性与平衡性,增强模型的迁移能力。

通过动态数据集策划实现高效的自监督学习以进行地球观察

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-09T00:00:00Z

本研究针对文本识别变换器的预训练阶段提出了两种改进措施,从而解决了现有自监督学习方法对无标签数据的利用不足的问题。通过逐步增加掩蔽概率并修改损失函数,本研究的实验结果表明,该预训练方法在降低字符错误率方面有效,且在某些情况下,相较于迁移学习提升达30%。

大规模数据集上文本识别变换器的masked自监督预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-28T00:00:00Z

本研究提出了一种新型双路径框架BSP-MPNet,结合自监督特征与幅度-相位信息,针对现有语音增强技术的不足,在多种噪声条件下表现优于现有方法,为自监督语音增强研究提供了新方向。

Amplitude-Phase Dual-Path Speech Enhancement Network Based on Self-Supervised Embeddings and Perceptual Contrast Stretching

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码