多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024

💡 原文中文,约3200字,阅读约需8分钟。
📝

内容提要

亚马逊与香港科技大学、圣母大学合作推出Shopping MMLU评测基准,旨在评估大语言模型在在线购物领域的能力。该基准涵盖57个任务,解决多任务性和少样本性问题,基于真实购物数据构建。研究表明,闭源模型优于开源模型,但后者逐渐缩小差距。Shopping MMLU为后续研究提供了重要参考,并已开源。

🎯

关键要点

  • 亚马逊与香港科技大学、圣母大学合作推出Shopping MMLU评测基准,评估大语言模型在在线购物领域的能力。
  • Shopping MMLU涵盖57个任务,解决多任务性和少样本性问题,基于真实购物数据构建。
  • 在线购物领域存在多样的实体、关系和用户行为,构成复杂的多任务学习问题。
  • 大语言模型如GPT、T5、LLaMA展现出强大的多任务和少样本学习能力,适合在线购物应用。
  • Shopping MMLU覆盖四项能力:在线购物概念理解、知识推理、用户行为理解和多语言能力。
  • 研究选取27个主流大语言模型进行实验,发现闭源模型优于开源模型,但后者逐渐缩小差距。
  • 微调对模型在Shopping MMLU得分有影响,通用领域微调一般能提升得分,但需注意数据质量。
  • Shopping MMLU为后续研究提供重要参考,已开源并持续维护,欢迎新模型加入排行榜。
➡️

继续阅读