本研究提出了一种新原则,以优化大型语言模型的数据选择,减少噪声数据的影响。实验表明,仅使用10%的数据集,性能提升3%至8%,同时降低计算成本,展示了数据选择的潜力。
完成下面两步后,将自动完成登录并继续当前操作。