本研究提出了一种新方法,通过规则定义检测训练数据中的偏见和缺陷,以建立可信的模型基准。该方法适用于小规模数据集,扩展了传统统计测试的应用。
本研究提出了一种统一的组合因果推理框架,以解决生成性AI中因果推理评估不足的问题。实验揭示了语言模型的错误模式,尤其在复杂因果路径下错误率显著增加,展示了该框架的应用价值。
本研究提出了SpecTool基准,识别大型语言模型(LLMs)在工具使用任务中的错误模式。基准包含七种新表征错误模式的查询数据集,研究表明即使是最优秀的LLMs也存在这些错误,为研究者提供了错误缓解策略的分析与见解。
本文重新评估了场景文字识别(STR)的性能,并提出了一个大规模的真实STR数据集Union14M。实验证明STR在真实场景中仍面临许多挑战。作者通过分析模型的错误模式确定了STR领域的七个难题,并构建了一个以挑战为驱动的基准。作者发现自监督预训练可以显著提高STR模型在真实场景中的鲁棒性。
SpotBugs是一个开源静态分析工具,用于查找Java代码中的错误。它可以识别400多种错误模式,包括空指针引用、死锁和安全漏洞等。通过修复代码中的错误,可以提高代码质量。
完成下面两步后,将自动完成登录并继续当前操作。