本研究提出了一种动态数据集修剪策略,以解决自监督学习在地球观察中的数据集策划不足问题,提升预训练数据集的多样性与平衡性,增强模型的迁移能力。
本研究提出了一种少样本提示学习框架FSMisD,旨在提高视觉语言模型在动态数据集中的误分类检测效率和有效性。实验结果表明,该方法在多个数据集上具有显著的有效性和普适性。
随着数据量的增加,DiskANN应运而生,提供高效、低成本的大规模向量搜索。它利用Vamana图构建索引,支持实时更新,特别适用于动态数据集,如推荐系统和文档索引。DiskANN在速度与准确性之间取得了良好平衡,适合现代数据系统。
本研究提出了一种新型扩散生成模型,用于模拟蛋白质折叠过程并生成高质量蛋白质结构。通过多种方法提高预测精度,尤其在药物发现领域表现突出,并引入动态数据集以增强模型性能。
本研究提出了一种动态数据集生成和训练模型的方法,生成约40,000项新数据,显著提升了模型的鲁棒性和性能。通过构建多语言的GOTHate数据集,开发了HEN-mBERT模型,增强了恶意言论检测效果。同时,研究探讨了在有限数据情况下的仇恨言论检测,提出合成数据生成方法,显示出良好的模型性能。
Dynabench是一个开源平台,用于创建动态数据集和进行模型基准测试。它解决了模型在基准任务上表现出色但在简单挑战示例和实际场景中失败的问题。该平台通过人和模型操作创建了能够被目标模型误分类但另一个人不能误分类的示例。它的优点和解决动态基准测定作为新标准引起的潜在反对意见也被阐述。
完成下面两步后,将自动完成登录并继续当前操作。