大型语言模型作为 MOOC 课程的评分器

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

评估了ChatGPT和OpenAssistant两种LLM的零次效果,发现无法与经过微调的基线模型匹配。提示策略影响分类准确性,差异超过10%。

🎯

关键要点

  • 评估了ChatGPT和OpenAssistant两种公共可访问的LLM的零次效果。
  • 在零次设置下,当前LLMs无法与经过微调的基线模型(如BERT)匹配。
  • 不同的提示策略显著影响分类准确性,准确性和F1分数的差异超过10%。
➡️

继续阅读