小红花·文摘

网友爆料Meta的Llama 4模型存在跑分作弊，混合测试集数据以提升基准测试表现。一名自称Meta员工的网友对此不满，已提交离职申请。Meta高管否认作弊，表示正在修复模型表现不均的问题。

蓝点网 ·

本研究探讨数据增强对机器学习模型偏差的影响，提出了一种测试偏差的方法，分析增强样本在测试集中的作用，旨在提高软件工程中模型评估的准确性，尤其是在数据稀缺的情况下。

BriefGPT - AI 论文速递 ·

DEV Community ·

该文介绍了一种名为GRECO的新型质量估计模型，用于评估纠正后句子的质量，从而实现更高的F0.5分数的综合GEC系统。同时，该文还提出了三种利用GEC质量估计模型进行系统组合的方法，并在测试集上表现超过现有最新水平，达到迄今最高的F0.5分数。

BriefGPT - AI 论文速递 ·

BadPrompt算法可用于基于触发模式的后门攻击，攻击连续提示模型。作者在五个数据集和两个连续提示模型上进行了评估，证明了BadPrompt的有效性，并在干净的测试集上保持高性能，比基线模型更好。

BriefGPT - AI 论文速递 ·

plus studio ·