新加坡Sapient Intelligence公司提出的分层推理模型(HRM)仅用2700万参数和1000个样本,在复杂推理任务中超越大型模型,表明更优的架构设计能显著提升AI性能,改变AI发展方向。
蚂蚁集团发布的MedResearcher-R1模型仅用2100条训练样本,在医疗AI测试中超越通用大模型,展示了专业模型在医疗领域的优势。该模型通过创新训练方法和专用工具,提高了医疗研究的准确性和效率,彰显小规模模型的潜力。
本研究提出了一种新的核心集选择度量——损失轨迹相关性(LTC),有效识别关键训练样本,从而提升深度学习模型在实时或资源受限环境中的可扩展性与效率。
本研究探讨了深度学习中过参数化模型的泛化能力,提出了一种在宽松假设下的有效方法,表明足够的训练样本和网络规模能够实现有效泛化,且数据需求依赖于特定分布。
本研究探讨了在雷达点云中应用混合样本数据增强(MSDA)的挑战,并提出了类感知柱混合(CAPMix)方法。该方法通过在3D点云的柱级别应用带类标签的MixUp,生成多样化的训练样本。实验结果表明,CAPMix显著提升了性能,超越了现有的MSDA方法。
本研究提出了DMin框架,解决了扩散模型中影响估计的计算限制。通过梯度压缩和检索技术,DMin显著降低了存储需求,并快速识别影响性训练样本,实验证明其有效性和高效性。
本文提出基尼系数作为评估向量空间中多对多相似性的统一指标。研究表明,高基尼系数对应较高的图像相似性,低基尼系数则对应较低的图像相似性。此外,选择与测试数据集分布匹配的训练样本比确保数据多样性更为重要,从而提升模型性能。
本研究提出了一种新方法,通过内在重标定训练样本的重要性,解决缺乏人口统计信息下的公平性问题。该方法针对最坏情况进行训练,增强了对异常值的鲁棒性,实验结果显示其在公平性基准测试中表现优越。
本研究提出了MedINST,一个包含133个生物医学自然语言处理任务和超过700万训练样本的元数据集,旨在解决大型语言模型在医学分析中缺乏多样化数据集的问题。经过微调,多个模型在MedINST32基准上表现出更好的泛化能力。
本研究提出了一种解决目标检测中由于训练样本有限导致的OOD目标检测准确率低的方法。通过利用相似性特征,提出了原型OOD网络架构,并评估输入特征与原型之间的相似度。实验结果显示该方法在数据集上降低了FPR95,并提高了mAP。
本文提出了一种新方法,通过自动标记文本与指令,构建高质量的指令跟随语言模型。该方法利用少量种子数据和网络语料库进行微调,生成训练样本并选择高质量例子。研究表明,模型在多语言翻译和复杂任务中表现优异,特别是在未见语言的翻译上有显著提升。
通过对成对示例基于其已观测到的实际结果最小化损失的训练策略,PairNet 能够准确地预测处理变化导致的结果变化,并在多个基准测试中表现出比基准模型更小的 ITE 误差,同时具有模型不可知性和易于实现的优点。
通过解释 AI 系统的决策,例如提供达到子程序目标的反事实解释,来分析 AI 系统的推理是一种流行的可解释 AI(XAI)方法。本文提出了一个新问题,即识别对给定解释(或相关量)有很高影响力的训练数据样本,并研究了受保护群体之间子程序成本差异的特定情况。我们提出了一种算法来识别这样的有影响力的训练样本。
本文提出了一种新型盲图像质量评估模型,解决了质量感知特征表示和训练样本多样性问题。实验结果表明,该模型在多个数据库上表现优异,具有更强的鲁棒性。同时,研究探讨了深度学习技术在图像质量评估中的应用,并提出多种方法以提高评估的精度和效率。
复旦大学研究团队提出的UniFMIR模型,通过深度学习技术,显著提升了荧光显微镜图像的超分辨率和去噪性能,突破了成像极限,广泛应用于生命科学和材料研究。
本文探讨了一种基于短探测轨迹的机器学习算法选择新方法,提升了计算效率和结果准确性。研究分析了算法切换时的局部景观特征,验证了特征选择和算法性能预测的有效性,展示了新模型在多个问题上的优越性。
人流移动模拟是模拟人员移动的技术,可应用于游戏、城市规划、建筑设计和交通组织等领域。清华大学研究人员提出了一种新的条件去噪扩散模型,通过社会力引导的扩散过程来模拟人群行为。该模型集成了等变性的强归纳偏差,并开发了适用于扩散模型的长程训练算法。实验证明该模型相对于基线方法有显著性能提升。
研究发现,大型语言模型(LLMs)如GPT-4在判断陈述的能力上与人类存在显著差异,高估了无意义陈述的深度。少量训练样本的提示能使LLMs接近人类评分,非思维链式的提示则使LLMs评分远离人类。研究还揭示了强化学习中的潜在偏见。
该研究使用神经网络估计星系样本的红移分布,并证明了不同光学波段信息下该方法的有效性。研究还探讨了训练样本数量不足和数据大小不一致的情况。
本文介绍了使用熵和EL2N评分来评估训练样本的有用性和难度,并展示了如何选择重要样本。结果显示,通过筛选高质量数据集并进行评分选择,语义错误率下降2%,领域分类错误率下降4%-7%。
完成下面两步后,将自动完成登录并继续当前操作。