小红花·文摘

本研究评估了GPT-3.5、LLaMA-2 70B和Mixtral 8x7B在分级文本生成任务中的表现。结果显示少量样本提示可以提高可读性操作和信息保留的性能。LLaMA-2 70B在实现所需难度范围方面表现更好，而GPT-3.5保持了原始意义。然而，手动检查发现了一些问题，如引入错误信息和不一致的编辑分布。这些发现强调了进一步研究以确保生成的教育内容质量的需求。