小红花·文摘

本研究提出了一种自适应随机测试方法，旨在降低大型语言模型软件测试中的输入输出评估成本，优化测试套件，发现故障并控制预算。

Diversity-Based Adaptive Testing for Large Language Model Applications

BriefGPT - AI 论文速递 ·

本研究提出了一种基于扩散模型的认知状态迁移框架（DCSR），旨在解决计算机自适应测试中的冷启动问题。该方法通过建立领域间的认知状态转移桥梁，显著改善了对考生能力的初步理解，实验结果表明其性能优于现有方法。

Cold Start Problem and Sufficient Prior Information in Computerized Adaptive Testing Based on Diffusion Models

BriefGPT - AI 论文速递 ·

本文提出了一种自适应测试框架，用于评估大型语言模型（LLMs），能够动态调整问题难度以更准确地估计模型能力。研究表明，GPT-4在主题知识、数理推理和编程方面表现优异，并引入了新评估范式，揭示了现有基准测试的缺陷，强调了对LLMs认知能力的深入研究和动态评估的重要性。

我们能依赖大型语言模型吗?固定效应谬误与GPT-4能力的主å¼

BriefGPT - AI 论文速递 ·

该研究评估了OpenAI的GPT-3.5和GPT-4模型在心理测量学中的表现，发现GPT-4在一般描述下与人类相似，但在具体人口统计信息下表现较差。研究提出了一种自适应测试框架，以更准确地评估模型能力。GPT-4在主题知识、数理推理和编程方面表现优异，适用于教育评估。此外，研究还探讨了大型语言模型在评分开放式问题中的一致性和准确性，显示其在教育反馈中的潜力。

利用 LLM - 回答者进行项目评估：一项心理测量分析

BriefGPT - AI 论文速递 ·