小红花·文摘

本研究提出拉普拉斯样本信息（LSI），通过贝叶斯视角准确估计数据集中个体样本的信息量。LSI结合信息理论和KL散度方法，有效识别数据典型性、检测标签错误及评估数据集难度，从而提升样本选择效率和模型准确性，适用于图像和文本数据训练任务。

Laplace Sample Information: Data Informativeness Through a Bayesian Perspective

BriefGPT - AI 论文速递 ·

本研究提出了一种新样本选择方法，针对噪声标签下的图像分类，能够有效识别正确标记的困难样本。通过跟踪模型预测置信度的变化，提高了样本选择的精度和召回率，实验结果表明该方法显著提升了噪声标签学习的性能。

Enhanced Sample Selection and Confidence Tracking: Identifying Correctly Labeled but Hard-to-Learn Samples in Noisy Data

BriefGPT - AI 论文速递 ·

本研究提出了一种名为ConFrag的新方法，旨在解决噪声标签的回归问题。通过将数据转化为不连贯片段对，ConFrag提高了样本选择的准确性，并在处理标签噪声时表现优异，超越了十四个基线方法，展现出强大的鲁棒性。

Sample Selection through Comparative Fragmentation to Address Noisy Label Regression

BriefGPT - AI 论文速递 ·

大模型强化学习新发现：删减84%数据反提升效果

机器之心 ·

本文探讨了影响强化学习训练数据提升语言模型推理能力的因素，提出了“学习影响测量”（LIM）方法，表明通过精心选择的1,389个样本可以超越8,523个样本的数据集表现，强调了样本选择的重要性。

LIMR: Less is More in Reinforcement Learning Expansion

BriefGPT - AI 论文速递 ·

本研究提出SALN方法，通过优先选择样本，提高深度学习模型的训练效率和准确性。实验结果显示，训练时间减少8倍，准确性提升5%。

通过谱分析和联合批次选择优化数据整理（SALN）

BriefGPT - AI 论文速递 ·

本研究探讨了上下文学习（ICL）在多示例模式下的样本选择敏感性，特别关注长上下文语言模型（LCLMs）。实验结果显示，简单随机选择样本未显著提升性能，而数据增强方法有效提高了ICL性能，提升幅度达到5%。

Revisiting In-Context Learning and Long Context Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法LeaDQ，旨在解决联邦学习中未标记数据流的样本选择问题。通过多智能体强化学习优化客户端策略，显著提高了全球模型的准确性，实验结果表明其优于现有基准算法。

如何从未标记的数据流中查询联邦学习

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在上下文学习中的有效性，提出了一种基于最大边际相关性的样本选择方法，以提升模型在真实任务中的表现。同时，引入图方法增强推理能力，提出知识解决器（KSL）和新方法FiDelis，结合知识图谱和LLMs，显著改善了推理性能和知识检索能力。实验结果表明，所提方法在多个数据集上优于现有技术。

基于推理图增强的语境学习样本检索

BriefGPT - AI 论文速递 ·

本文探讨了多种少样本学习技术，包括任务自适应特征子空间学习、结合最优传输和原型网络的方法、约束的少样本学习等，并提出了提高模型性能的策略和评估方法。研究表明，使用未标记数据和优化样本选择策略能显著提升少样本学习效果。

哦，我再次取样了：重新诠释少样本学习中的置信区间

BriefGPT - AI 论文速递 ·

本文介绍了一种测试Web应用防火墙（WAF）性能的方法，通过四个关键指标进行评估。作者使用开源工具和样本进行测试，得出了不同WAF的性能比较结果。SafeLine表现最佳，Coraza和ModSecurity的检测率高但误报率也较高。文章强调了根据实际情况选择适当的样本和方法进行测试的重要性。

5款免费WAF的测试报告

DEV Community ·

本文提出了一种有效处理不平衡数据集中噪声标签的方法，结合类平衡样本选择和置信度样本增强，通过模型训练动态纠正噪声标签，提升模型性能。实验结果表明，该方法在高噪声水平下优于现有技术，具有良好的鲁棒性和准确性。

促进具噪声标签学习中的适应性与平衡

BriefGPT - AI 论文速递 ·

本文介绍了多种对比学习框架，如SimCSE、InfoCSE和DebCSE，显著提升了句子嵌入性能，适用于语义文本相似性任务。研究表明，无监督学习和新颖的样本选择方法能有效提高模型质量，推动句子表示学习的发展。

SentiCSE：一种基于情感的对比句嵌入框架，配备情感引导的文本相似度

BriefGPT - AI 论文速递 ·

本研究提出了一种主动学习方法，通过限制注释费用优化样本选择，结果表明超点选择在有限预算下更有效。结合不确定性和多样性采样的后期主动学习算法显著提高了标注效率，尤其在医学图像分割中，减少了人工标注需求。实验通过分层点云策略显示，即使在少量训练数据下也能实现高性能。

通过主动学习实现高效的息肉分割

BriefGPT - AI 论文速递 ·