双重优势:通过二分图在数据选择中桥接质量与多样性
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对当前数据选择方法仅关注质量或多样性的问题,提出了一种新颖的GraphFilter方法,通过将数据集表示为二分图来有效捕捉句子与其成分n-gram之间的关系。实验结果表明,GraphFilter在六个广泛使用的基准上超越了所有基线方法,实现了模型性能和计算效率的提升,奠定了有效数据选择策略的新基础。
本研究提出了一种新方法GraphFilter,将数据集表示为二分图,解决了现有方法只关注质量或多样性的问题。实验表明,GraphFilter在六个基准上优于所有基线方法,提升了模型性能和计算效率。