本研究提出了一种弱监督学习方法,旨在降低现代搜索引擎构建标注数据集的时间和成本。该方法通过推断查询-文档对的质量,应用于学习排序框架,从而显著提高大规模搜索系统的精度。
本研究提出Surg-FTDA方法,旨在解决外科工作流程分析中对大规模标注数据集的依赖问题。该方法在极少的配对图像-标签数据下,能够有效处理多种外科任务,并在生成性和区分性任务中表现优于基线,展现出良好的泛化能力。
本研究提出了一种结合人工智能与众包的方法来解决医学图像分割中高质量标注数据集短缺的问题。通过在线平台,多样化的众包标注者可以高效标记医学图像,并结合生成对抗网络技术增加合成图像,从而提高模型性能。
这篇文章介绍了一个包含超过42k个泰米尔YouTube评论的情绪识别标注数据集。作者创建了三种情感分组并评估了模型性能。MURIL-base模型在3类组数据集上达到了0.6的宏平均F1分数。在7类和31类组中,随机森林模型的宏平均F1分数分别为0.42和0.29。
本文介绍了一种自我正则化的软件实体识别(SER)模型训练方法,利用维基百科分类法建立实体词典和标注数据集,解决了语料库中噪音和训练数据不足的问题。在维基百科和Stack Overflow基准测试中,该方法展现了优于基准模型和现有方法的性能。作者公开了模型、数据和代码供未来研究使用。
完成下面两步后,将自动完成登录并继续当前操作。