本研究提出了OSVBench,这是一个用于评估大型语言模型在操作系统内核验证中生成完整规范代码的新基准。研究发现,当前模型在此任务中的表现有限,揭示了它们在处理长上下文代码生成时的能力差异,为未来研究提供了改进方向。
完成下面两步后,将自动完成登录并继续当前操作。