小红花·文摘

文章讨论了AI行业的现状，提到SpaceX以600亿美元收购Cursor引发市场泡沫质疑。作者认为开源代码是最佳编程工具，尽管闭源模型如GPT-5.4和Opus 4.7成本高但性能优越。文章还提到AI行业存在“AI精神病”，对未来持悲观态度，呼吁结束不切实际的追逐。

人工智能没有护城河

the singularity is nearer ·

Meta计划于明年春季推出名为「牛油果」的闭源模型，该模型在训练中使用了阿里巴巴的Qwen等开源AI。这一转变标志着Meta从开源向闭源战略的转变，引发市场和投资者的关注。

Meta公开抄阿里Qwen作业，还闭源了…

量子位 ·

KRIS-Bench项目评测图像编辑模型的推理能力，发现所有模型在程序性推理上表现不佳。该项目从事实性、概念性和程序性知识三个层面进行系统评估，涵盖多种编辑任务。测试结果显示，闭源模型优于开源模型，尤其在深层推理能力上明显不足。团队希望推动AI向具备人类认知能力发展。

知识类型视角切入，全面评测图像编辑模型推理能力：所有模型在「程序性推理」方面表现不佳

量子位 ·

本研究提出了KORGym，一个灵活的动态评估平台，旨在解决大型语言模型推理评估的局限性。通过对19个大型语言模型和8个视觉语言模型的实验，发现闭源模型表现更优，预计将推动语言模型推理研究的发展。

KORGym: A Dynamic Game Platform for Evaluating Reasoning in Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了$ exttt{Complex-Edit}$，用于评估不同复杂度指令的图像编辑模型。结果表明，开放源模型在复杂任务中的表现显著低于闭源模型，指令复杂度的增加影响了模型的信息保留和美学质量，揭示了合成数据的负面影响。

复杂编辑：可控复杂性图像编辑基准的链式指令生成

BriefGPT - AI 论文速递 ·

亚马逊与香港科技大学、圣母大学合作推出Shopping MMLU评测基准，旨在评估大语言模型在在线购物领域的能力。该基准涵盖57个任务，解决多任务性和少样本性问题，基于真实购物数据构建。研究表明，闭源模型优于开源模型，但后者逐渐缩小差距。Shopping MMLU为后续研究提供了重要参考，并已开源。

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

量子位 ·

本研究评估了闭源和开源大型语言模型，发现较小的开源模型如LLaMA-2-7B在性能上可与大型闭源模型相媲美。考虑到闭源模型的隐私问题和高成本，开源模型更适合工业应用。LLaMA-2-7B模型在性能、成本和隐私问题上取得平衡，具有前景。该研究提供了使用大型语言模型进行实际业务会议摘要的实用见解。

CREAM：基于比较的无参考ELO排名自动评估会议总结

BriefGPT - AI 论文速递 ·

该研究介绍了AQA-Bench，一个评估大规模语言模型在算法环境中顺序推理能力的新基准。研究发现闭源模型表现较好，简单交互示例可能损害少样本性能，少样本性能可通过遵循最优策略的前继步骤数量提升，性能和模型大小之间的缩放相关性不总是显著。希望推动对LLM顺序推理能力的研究。

只需100个实例：通过测试少量实例预测新LLM在未见数据上的成功

BriefGPT - AI 论文速递 ·

人工智能Meta发布了Llama 3.1系列开放模型，最高提供4050亿参数版本，能力超过GPT-4和Claude 3.5 Sonnet等闭源模型。开发者可通过云平台或Meta下载模型进行调试。Llama 3.1-405B版能力超过GPT-4-0125、GPT-4o和Claude 3.5 Sonnet。扎克伯格表示，Llama已在开放性、可修改性和成本效率等方面处于领先地位。