量子位 ·

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

亚马逊与香港科技大学、圣母大学合作推出Shopping MMLU评测基准，旨在评估大语言模型在在线购物领域的能力。该基准涵盖57个任务，解决多任务性和少样本性问题，基于真实购物数据构建。研究表明，闭源模型优于开源模型，但后者逐渐缩小差距。Shopping MMLU为后续研究提供了重要参考，并已开源。

🎯

关键要点

亚马逊与香港科技大学、圣母大学合作推出Shopping MMLU评测基准，评估大语言模型在在线购物领域的能力。
Shopping MMLU涵盖57个任务，解决多任务性和少样本性问题，基于真实购物数据构建。
在线购物领域存在多样的实体、关系和用户行为，构成复杂的多任务学习问题。
大语言模型如GPT、T5、LLaMA展现出强大的多任务和少样本学习能力，适合在线购物应用。
Shopping MMLU覆盖四项能力：在线购物概念理解、知识推理、用户行为理解和多语言能力。
研究选取27个主流大语言模型进行实验，发现闭源模型优于开源模型，但后者逐渐缩小差距。
微调对模型在Shopping MMLU得分有影响，通用领域微调一般能提升得分，但需注意数据质量。
Shopping MMLU为后续研究提供重要参考，已开源并持续维护，欢迎新模型加入排行榜。

❓

延伸问答

Shopping MMLU的主要目的是什么？

Shopping MMLU旨在评估大语言模型在在线购物领域的能力与潜力。

Shopping MMLU包含多少个任务？

Shopping MMLU涵盖57个任务。

研究发现闭源模型和开源模型的表现如何？

研究发现闭源模型优于开源模型，但后者逐渐缩小差距。

Shopping MMLU是基于什么数据构建的？

Shopping MMLU是基于亚马逊的真实购物数据构建的。

Shopping MMLU评测的四项能力是什么？

Shopping MMLU评测的四项能力包括在线购物概念理解、知识推理、用户行为理解和多语言能力。

微调对模型在Shopping MMLU得分的影响是什么？

微调一般能提升模型在Shopping MMLU的得分，但需注意数据质量。

🏷️

继续阅读

使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
科技爱好者周刊（第 399 期）：中国 AI 大厂访问记
今年5月，美国访问团考察了14家中国AI和机器人公司，发现中国在算力方面受限于美国的芯片出口管制，导致研发进展缓慢。尽管中国公司在效率上有所提升，但整体算...
[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...