本研究提出了一种自适应随机测试方法,旨在降低大型语言模型软件测试中的输入输出评估成本,优化测试套件,发现故障并控制预算。
本研究提出了一种基于扩散模型的认知状态迁移框架(DCSR),旨在解决计算机自适应测试中的冷启动问题。该方法通过建立领域间的认知状态转移桥梁,显著改善了对考生能力的初步理解,实验结果表明其性能优于现有方法。
本文提出了一种自适应测试框架,用于评估大型语言模型(LLMs),能够动态调整问题难度以更准确地估计模型能力。研究表明,GPT-4在主题知识、数理推理和编程方面表现优异,并引入了新评估范式,揭示了现有基准测试的缺陷,强调了对LLMs认知能力的深入研究和动态评估的重要性。
该研究评估了OpenAI的GPT-3.5和GPT-4模型在心理测量学中的表现,发现GPT-4在一般描述下与人类相似,但在具体人口统计信息下表现较差。研究提出了一种自适应测试框架,以更准确地评估模型能力。GPT-4在主题知识、数理推理和编程方面表现优异,适用于教育评估。此外,研究还探讨了大型语言模型在评分开放式问题中的一致性和准确性,显示其在教育反馈中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。