大型语言模型作为 MOOC 课程的评分器
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
评估了ChatGPT和OpenAssistant两种LLM的零次效果,发现无法与经过微调的基线模型匹配。提示策略影响分类准确性,差异超过10%。
🎯
关键要点
- 评估了ChatGPT和OpenAssistant两种公共可访问的LLM的零次效果。
- 在零次设置下,当前LLMs无法与经过微调的基线模型(如BERT)匹配。
- 不同的提示策略显著影响分类准确性,准确性和F1分数的差异超过10%。
➡️