小红花·文摘

监督学习：预测建模的基础

MachineLearningMastery.com ·

该研究提出三项标准以合成高质量的多模态数据，解决了标记数据不足的问题，并开发了表现优异的多模态多语言E5模型mmE5。

mmE5: Improving Multimodal Multilingual Embeddings through High-Quality Synthetic Data

BriefGPT - AI 论文速递 ·

本研究提出了一种自回归预训练方法Moto，旨在解决机器人学习中缺乏标记数据的问题。通过将视频内容转化为潜在运动标记序列，提升机器人在动态环境中的操控性能。

Moto: A Latent Motion Token as the Bridging Language for Robot Manipulation

BriefGPT - AI 论文速递 ·

本研究提出了一种自监督学习方法，解决了结构健康监测中因标记数据稀缺导致的异常检测问题。该框架有效利用少量标记数据和大量未标记数据，显著提升了异常检测性能。

Anomaly Detection in Structural Health Monitoring Data with Scarce Labeled Data Using Self-Supervised Pretraining Models

BriefGPT - AI 论文速递 ·

本研究提出了一种基于半监督学习的线段检测方法，利用不同增强和扰动的未标记图像及少量标记数据，取得了与完全监督方法相当的效果，为困难或昂贵的标注场景提供了新的应用可能性。

The Impact of Semi-Supervised Learning on Line Segment Detection

BriefGPT - AI 论文速递 ·

本研究提出了一种迁移学习框架，通过合成数据训练并适应领域知识，解决了支气管镜图像中缺乏标记数据的问题，从而提高了真实影像的深度估计准确性。

Enhancing Bronchoscopy Depth Estimation through Synthetic-to-Real Domain Adaptation

BriefGPT - AI 论文速递 ·

监督学习类型 - 可能性的艺术

DEV Community ·

本研究提出了一种新方法（FL）²，旨在解决联邦学习中客户端缺乏标记数据的问题。通过引入正则化和自适应阈值，显著提升了无标记客户端的训练效果，缩小了与集中学习的性能差距。

(FL)²: Overcoming the Scarcity of Labels in Federated Semi-Supervised Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种名为BoxAL的主动学习技术，用于解决自动捕捞登记中对标记数据的依赖。该技术通过评估目标检测模型的不确定性，在使用较少标记图像的情况下，达到了与随机采样相同的性能，并显著提高了训练效果。

通过BoxAL主动学习改进被丢弃鱼类物种的检测

BriefGPT - AI 论文速递 ·

研究人员通过使用合成数据和少于1k个训练步骤，提出了一种新颖简单的方法来获取高质量的文本嵌入。他们利用专有的LLMs在近100种语言中生成大量多样化的合成数据，并使用标准对比损失在合成数据上微调开源的只解码LLMs。实验证明，该方法在高度竞争的文本嵌入基准上表现出强大的性能，而不需要任何标记数据。此外，当将合成数据和标记数据混合进行微调时，该模型在BEIR和MTEB基准上取得了最新的技术成果。

HU 参加 SemEval-2024 任务 8A：对比学习能否学习嵌入以检测机器生成的文本？

BriefGPT - AI 论文速递 ·

自我训练是计算机视觉中一种使用额外数据的替代方法，具有更强的通用性和灵活性。研究表明，自我训练在低数据和高数据环境下使用更强的数据增强时都有帮助。在预训练有效的情况下，自我训练能够进一步提高对象检测的准确性。

启发式视觉预训练的自监督和有监督多任务学习

BriefGPT - AI 论文速递 ·

该文提出了一种简单直观的批量校准方法，能够控制批量输入的上下文偏差，解决了零-shot、只有推理过程中存在的问题。在少样本设置下，BC 进一步扩展，能够从标记数据中学习上下文偏差，并在多个任务中展示了优于以往校准基线的表现。

批量校准：重新思考上下文学习和提示工程的校准

BriefGPT - AI 论文速递 ·

该文介绍了无监督域自适应的方法，通过利用源领域标记数据和目标领域未标记数据来解决深度学习模型在面临目标域的分布变化时表现下降的问题。

T-UDA：序列点云中的时态无监督领域适应

BriefGPT - AI 论文速递 ·

深度学习在多个领域表现出色，但仅依靠标记数据训练模型不能保证在目标领域有好的表现。无监督域自适应通过利用源领域标记数据和目标领域未标记数据解决这个问题。已在自然图像处理、自然语言处理等领域取得令人期待的结果。该文对该领域的方法和应用进行了比较，并指出了当前方法的不足和未来研究方向。

检测、增强、组合和适应：目标检测中的四个无监督领域适应步骤

BriefGPT - AI 论文速递 ·