小红花·文摘

本研究提出了一种名为SSLR的半监督学习方法，旨在解决手语识别系统中标注数据稀缺的问题。通过为未标注样本生成伪标签，SSLR在使用较少标注数据的情况下，性能超过全监督学习模型，显示出在手语识别领域的潜力。

SSLR: A Semi-Supervised Learning Method for Isolated Sign Language Recognition

BriefGPT - AI 论文速递 ·

该研究采用大规模弱监督学习方法，解决阿拉伯语语音识别中的标注数据不足问题。训练的ASR模型在缺乏人工标签的情况下，仍在标准测试中表现优异，验证了弱监督学习在低资源环境中的有效性。

Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种名为SeLIP的对比学习框架，旨在解决医学图像分析中的标注数据不足问题。通过结合图像和放射学发现，增强了对比学习。实验结果表明，该模型在图像-文本检索、分类和图像分割等任务中表现优异，强调了文本相似性在医学图像基础模型构建中的重要性。

SeLIP: Similarity Enhanced Contrastive Language-Image Pretraining for Multi-modal Head MRI

BriefGPT - AI 论文速递 ·

本研究提出CBVLM方法，旨在解决医学图像分类中的标注数据不足和缺乏可解释性的问题。该方法利用大规模视觉语言模型的少量学习能力，降低标注成本并确保诊断可解释性。实验结果表明，CBVLM在多个医学数据集上表现优异，超越传统方法。

CBVLM: Training-free Explainable Concept-based Large Vision Language Model for Medical Image Classification

BriefGPT - AI 论文速递 ·

本研究提出PEIT框架，以解决分子生成任务中的标注数据不足和多属性约束问题。实验结果显示，PEIT在分子描述生成和多任务生成方面表现优异，验证了其广泛适用性。

Enhanced Attribute Instruction Tuning for Large Language Models in Multi-Task Molecular Generation

BriefGPT - AI 论文速递 ·

本文研究了自我演变训练在多模态推理中的应用，提出了最佳实践以解决标注数据不足的问题，优化了训练方法和奖励模型，开发了MSTaR框架，使模型在多个基准上显著提升，填补了该领域的理解空白。

In-Depth Study of Self-Evolving Training for Multimodal Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了一种基于条件生成对抗网络（ConGAN）和迁移学习框架（T-ConGAN）的方法，旨在解决家庭独特空间特性导致的标注数据获取困难，显著提升室内定位性能，尤其在楼梯和户外等挑战区域。

RSSI迁移学习以提高室内定位性能

BriefGPT - AI 论文速递 ·

本研究针对机器学习中的概念漂移问题，提出了无监督漂移采样策略（SUDS）和统一标注数据准确性指标（HADAM），以提升模型的适应能力和标注数据的使用效率。

Unsupervised Drift Sampling Strategy (SUDS)

BriefGPT - AI 论文速递 ·

本研究提出了一种结合人类视觉显著性与主动学习的策略，以解决深度学习模型可解释性不足的问题。结果表明，该方法能减少80%的标注数据，同时保持可解释性和性能的提升。

通过近似人类视觉显著性来提高神经网络的可解释性

BriefGPT - AI 论文速递 ·

本研究提出了一种基于大型语言模型的命名实体识别框架LLM-DER，解决了煤化工领域NER中缺乏标注数据的问题。实验结果表明，LLM-DER在领域特定实体识别中表现优异，验证了其有效性。

基于大型语言模型的命名实体识别方法：煤化工领域

BriefGPT - AI 论文速递 ·

本研究提出了利用大语言模型的少量示例提示方法，解决了传统NER系统对大量标注数据依赖的问题。研究发现，大模型在适应新实体类型和领域时表现出色，凸显了少量学习在降低标注数据需求方面的潜力，提升了NER的可扩展性和可达性。

利用大语言模型进行少量示例提示的命名实体识别评估

BriefGPT - AI 论文速递 ·

该研究介绍了罗马尼亚方言识别的研究，引入了RoDia数据集，包含了来自五个地区的语音样本和标注数据。最高得分的模型在该数据集上达到了59.83%的宏观F1得分和62.08%的微观F1得分。研究人员认为RoDia是一个有价值的资源，将推动罗马尼亚方言识别的研究。

利用声学特征进行泰米尔文学与口语方言识别

BriefGPT - AI 论文速递 ·

本研究提出了一种新的半监督框架，通过利用2D基础模型生成必要的3D场景几何和语义线索，提高3D语义占用预测的效率。实验结果显示，该方法在仅使用10%标注数据的情况下，性能可达到85%的全监督水平。具有更广泛的应用潜力。

半监督的3D语义场景完成与2D视觉基础模型指导

BriefGPT - AI 论文速递 ·

该研究提出了一种无监督学习方法，用于生成语义鸟瞰地图，提供强大的遮挡推理能力。使用1%的标注数据和无额外标记数据，在KITTI-360和nuScenes数据集上表现相当。

通过直接车辆效果视角特征注意力加速在线地图绘制和行为预测

BriefGPT - AI 论文速递 ·

本文比较了模型微调和检索增强生成（RAG）两种提升语言模型性能的方法。微调需要大量标注数据，而RAG结合了检索和生成，不需要标注数据。微软的实验结果显示，RAG相比微调具有显著优势，可能是因为RAG能丰富模型知识并结合问题上下文。然而，RAG与微调结合并不总是胜过单一的RAG或微调方法。

模型微调还是RAG？使用LLM需要考虑的决策点

六虎 ·

实验结果显示，小模型在专家注释下以较少标注数据胜过GPT-3.5，与GPT-4性能相当或超过，尽管规模只有后者的百分之一。因此，认为大型语言模型可作为预热方法，通过领域专家数据注释实现任务成功。

人类仍胜过 LLM：一个关于特定领域注释任务的主动学习的实证研究

BriefGPT - AI 论文速递 ·

该文提出了一种新颖的逐轮主动学习框架，用于对话状态跟踪。通过主动选择对话中的轮次进行注释，解决了收集大量逐轮标注对话数据的高成本和低效率问题。实验结果表明选择性注释对话轮次的有效性，同时使用显著较少的标注数据，可以实现与传统训练方法相当的DST性能，为注释新的对话数据提供了更高效的方式。

对话状态跟踪的转折级主动学习

BriefGPT - AI 论文速递 ·

本文介绍了一种基于物理学信息神经网络（PINN）的方法，用于解决没有标注数据的弹性动力学建模问题。该方法解决了弱正则化PINN框架下复杂的I/BCs问题，并在多个数值弹性例子中展示了其可行性。

变系数泊松方程的物理信息神经网络中的精确和软边界条件

BriefGPT - AI 论文速递 ·