HyperAI 超神经为大家整理了 12.8-12.12 期间一系列极具价值且应用广泛的教程和数据集,涵盖智能体、计算机视觉、TTS 等多个领域~
该研究与瑞士洛桑联邦理工学院合作,探讨图像标记化对自回归图像生成的影响。传统方法采用二维网格标记化,而TiTok等新方法表明一维标记化能显著提升生成质量。
自监督学习在语音表示学习中取得显著进展。尽管多语言模型的表现不及单语言模型,但通过引入有限的视觉基础,双语语音模型的性能得到了提升,尤其在零样本音素区分任务中,性能差距从31.5%降至8.04%。
微软亚洲研究院与清华、北大联合提出强化预训练(RPT),将强化学习深度融入大语言模型(LLM)预训练,提升模型的推理能力和下一个token预测准确度。实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力和潜力。
本研究解决了共享单车系统中检测故障单车的难题,提出了一种新颖的自监督变压器框架(SSTransformer),有效结合了GPS轨迹和行程记录的时空特征。通过自监督预训练和后续的微调,该模型在真实数据集上的测试中显示出显著优于传统检测方法的性能,实现了高达97.81%的准确率,显著提高了共享单车的维护效率。
本文提出了一种自监督学习方案,解决无人机在无GPS环境下的自我运动估计问题,特别是在高速飞行和接近障碍物时。通过训练神经网络并改进遮挡处理,显著提升了运动估计的准确性。
本研究提出了一种动态记忆预测框架,解决了视频重建中多参考帧被忽视的问题。通过引入帧记忆引擎和双向目标预测网络,提升了跟踪精度和模型的鲁棒性,实验结果表明该算法优于现有的自监督技术。
本研究解决了医学成像中标签获取困难的问题,通过引入nn-MobileNet框架,采用BERT式自监督学习方法,利用大量未标记的视网膜图像进行预训练,以提高下游应用的性能。研究结果表明,此方法在阿尔茨海默病、帕金森病及多种视网膜疾病的识别中显著提升了表现,展示了在标签稀缺情况下,CNN的潜力。
本研究提出了一种SHeaP方法,解决了在缺乏大规模三维数据的情况下,从单幅图像和视频中实时重建人头三维模型的问题。该方法利用自监督学习和高斯渲染,显著提升了几何预测效果,超越了现有技术。
本研究提出了一种新损失函数,通过信息论框架解决自监督学习中图嵌入平滑性与下游任务表现之间的矛盾,从而提升图嵌入质量。实验结果表明,框架BSG在节点分类和链接预测任务中表现优异。
本研究解决了当前大规模语言模型(LLM)推理技术对外部监督信号的依赖问题,提出了一种名为Genius的完全自监督自训练框架。通过引入逐步预见重采样策略和优势校准优化损失函数,Genius能够在没有外部辅助的情况下优化LLM,显著提升其推理能力,具有革命性的潜力。
本研究提出了一种自监督片段微调方法(SF$^2$T),旨在提升视频大语言模型对视觉动态和细节的理解能力,并构建了新基准数据集FineVidBench以评估模型表现。实验结果表明,该方法显著增强了模型对时空细节的捕捉与解释能力。
本研究提出了一种动态数据集修剪策略,以解决自监督学习在地球观察中的数据集策划不足问题,提升预训练数据集的多样性与平衡性,增强模型的迁移能力。
本研究提出了一种基于光曲线的空间安全与可持续性基础模型,解决了空间物体行为分析模型不足的问题。该模型在异常检测和运动预测方面具有高准确性,有助于支持空间安全与可持续性监测。
本研究针对文本识别变换器的预训练阶段提出了两种改进措施,从而解决了现有自监督学习方法对无标签数据的利用不足的问题。通过逐步增加掩蔽概率并修改损失函数,本研究的实验结果表明,该预训练方法在降低字符错误率方面有效,且在某些情况下,相较于迁移学习提升达30%。
普林斯顿大学与华沙理工的研究表明,将对比强化学习扩展至1000层可显著提升性能,最多提高50倍,特别是在无监督目标任务中。研究创新性地结合自监督学习与强化学习,增加数据量并突破网络深度,发现更深的网络能够学习新行为并提高泛化能力。
本研究提出Jasmine框架,解决单目深度估计中的自监督学习问题,改善深度信息模糊和伪影。通过混合图像重建和Scale-Shift GRU,显著提升深度估计的清晰度和泛化能力,实验结果在KITTI基准测试中表现优异。
本研究提出了Endo3DAC框架,针对内窥镜深度估计和三维场景重建中的自监督学习,填补了医疗领域基础模型适应策略的空白。通过冻结基础模型并训练新设计的GDV-LoRA,显著提升了深度和姿态估计的效果。
完成下面两步后,将自动完成登录并继续当前操作。