监督学习是机器学习中用于预测建模的基础,通过标记数据训练模型,以便对新数据进行准确预测。该过程包括训练数据、学习算法和训练模型,主要分为回归和分类任务。成功的监督学习依赖于高质量的数据和模型的泛化能力。
该研究提出三项标准以合成高质量的多模态数据,解决了标记数据不足的问题,并开发了表现优异的多模态多语言E5模型mmE5。
本研究提出了一种自回归预训练方法Moto,旨在解决机器人学习中缺乏标记数据的问题。通过将视频内容转化为潜在运动标记序列,提升机器人在动态环境中的操控性能。
本研究提出了一种自监督学习方法,解决了结构健康监测中因标记数据稀缺导致的异常检测问题。该框架有效利用少量标记数据和大量未标记数据,显著提升了异常检测性能。
本研究提出了一种基于半监督学习的线段检测方法,利用不同增强和扰动的未标记图像及少量标记数据,取得了与完全监督方法相当的效果,为困难或昂贵的标注场景提供了新的应用可能性。
本研究提出了一种迁移学习框架,通过合成数据训练并适应领域知识,解决了支气管镜图像中缺乏标记数据的问题,从而提高了真实影像的深度估计准确性。
监督机器学习通过标记数据进行学习,主要分为分类(预测类别,如狗或猫)和回归(预测连续值,如薪水、年龄)两种类型。
本研究提出了一种新方法(FL)²,旨在解决联邦学习中客户端缺乏标记数据的问题。通过引入正则化和自适应阈值,显著提升了无标记客户端的训练效果,缩小了与集中学习的性能差距。
本研究提出了一种名为BoxAL的主动学习技术,用于解决自动捕捞登记中对标记数据的依赖。该技术通过评估目标检测模型的不确定性,在使用较少标记图像的情况下,达到了与随机采样相同的性能,并显著提高了训练效果。
研究人员通过使用合成数据和少于1k个训练步骤,提出了一种新颖简单的方法来获取高质量的文本嵌入。他们利用专有的LLMs在近100种语言中生成大量多样化的合成数据,并使用标准对比损失在合成数据上微调开源的只解码LLMs。实验证明,该方法在高度竞争的文本嵌入基准上表现出强大的性能,而不需要任何标记数据。此外,当将合成数据和标记数据混合进行微调时,该模型在BEIR和MTEB基准上取得了最新的技术成果。
自我训练是计算机视觉中一种使用额外数据的替代方法,具有更强的通用性和灵活性。研究表明,自我训练在低数据和高数据环境下使用更强的数据增强时都有帮助。在预训练有效的情况下,自我训练能够进一步提高对象检测的准确性。
该文提出了一种简单直观的批量校准方法,能够控制批量输入的上下文偏差,解决了零-shot、只有推理过程中存在的问题。在少样本设置下,BC 进一步扩展,能够从标记数据中学习上下文偏差,并在多个任务中展示了优于以往校准基线的表现。
该文介绍了无监督域自适应的方法,通过利用源领域标记数据和目标领域未标记数据来解决深度学习模型在面临目标域的分布变化时表现下降的问题。
深度学习在多个领域表现出色,但仅依靠标记数据训练模型不能保证在目标领域有好的表现。无监督域自适应通过利用源领域标记数据和目标领域未标记数据解决这个问题。已在自然图像处理、自然语言处理等领域取得令人期待的结果。该文对该领域的方法和应用进行了比较,并指出了当前方法的不足和未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。