文章讨论了AI行业的现状,提到SpaceX以600亿美元收购Cursor引发市场泡沫质疑。作者认为开源代码是最佳编程工具,尽管闭源模型如GPT-5.4和Opus 4.7成本高但性能优越。文章还提到AI行业存在“AI精神病”,对未来持悲观态度,呼吁结束不切实际的追逐。
Meta计划于明年春季推出名为「牛油果」的闭源模型,该模型在训练中使用了阿里巴巴的Qwen等开源AI。这一转变标志着Meta从开源向闭源战略的转变,引发市场和投资者的关注。
KRIS-Bench项目评测图像编辑模型的推理能力,发现所有模型在程序性推理上表现不佳。该项目从事实性、概念性和程序性知识三个层面进行系统评估,涵盖多种编辑任务。测试结果显示,闭源模型优于开源模型,尤其在深层推理能力上明显不足。团队希望推动AI向具备人类认知能力发展。
本研究提出了KORGym,一个灵活的动态评估平台,旨在解决大型语言模型推理评估的局限性。通过对19个大型语言模型和8个视觉语言模型的实验,发现闭源模型表现更优,预计将推动语言模型推理研究的发展。
本研究提出了$ exttt{Complex-Edit}$,用于评估不同复杂度指令的图像编辑模型。结果表明,开放源模型在复杂任务中的表现显著低于闭源模型,指令复杂度的增加影响了模型的信息保留和美学质量,揭示了合成数据的负面影响。
亚马逊与香港科技大学、圣母大学合作推出Shopping MMLU评测基准,旨在评估大语言模型在在线购物领域的能力。该基准涵盖57个任务,解决多任务性和少样本性问题,基于真实购物数据构建。研究表明,闭源模型优于开源模型,但后者逐渐缩小差距。Shopping MMLU为后续研究提供了重要参考,并已开源。
本研究评估了闭源和开源大型语言模型,发现较小的开源模型如LLaMA-2-7B在性能上可与大型闭源模型相媲美。考虑到闭源模型的隐私问题和高成本,开源模型更适合工业应用。LLaMA-2-7B模型在性能、成本和隐私问题上取得平衡,具有前景。该研究提供了使用大型语言模型进行实际业务会议摘要的实用见解。
该研究介绍了AQA-Bench,一个评估大规模语言模型在算法环境中顺序推理能力的新基准。研究发现闭源模型表现较好,简单交互示例可能损害少样本性能,少样本性能可通过遵循最优策略的前继步骤数量提升,性能和模型大小之间的缩放相关性不总是显著。希望推动对LLM顺序推理能力的研究。
人工智能Meta发布了Llama 3.1系列开放模型,最高提供4050亿参数版本,能力超过GPT-4和Claude 3.5 Sonnet等闭源模型。开发者可通过云平台或Meta下载模型进行调试。Llama 3.1-405B版能力超过GPT-4-0125、GPT-4o和Claude 3.5 Sonnet。扎克伯格表示,Llama已在开放性、可修改性和成本效率等方面处于领先地位。
中国大模型公司零一万物发布了第二款闭源模型Yi-Large,该模型在全球头部大模型的中英文双语PK中表现出色。Yi-Large在AlpacaEval 2.0的模型排行榜上排名世界第二,英语能力主要指标LC Win Rate排名世界第一。零一万物还宣布启动下一代Yi-XLarge MoE模型训练,冲击GPT-5的性能与创新性。此外,零一万物发布了一站式AI工作平台「万知」,提供会议纪要、周报、写作助手等功能。
开源模型与闭源模型之间的差距有多大?
开源与闭源大语言模型的好坏无法从属性推导,开源模型提供免费部署的LLM,商业使用可能需要特殊授权,开源模型背后的动机是为了遏制竞争对手,对领先者的商业利益有破坏作用,国内情况不同,FOMO情绪更多,开源与闭源并不重要,国内企业更注重可控性和甲方信任,目前最好的模型是闭源的,但评价模型好坏的标准多样,经济性也是重要指标,开源模型有社会意义,可以促进创新和机会。
百度不打算开源人工智能模型文心一言,因为李彦宏认为闭源模型能持续领先,开源模型只是验证应用,无法实现众人拾柴火焰高。闭源模型有商业模式,能赚钱聚集算力和人才。闭源模型的推理成本更低、响应速度更快,能力更强。
大型语言模型对时间信息的推理和保留能力有限,闭源模型显示知识缺口,微调方法未带来显著性能提升。
本研究评估了闭源和开源大型语言模型,发现较小的开源模型在零-shot情况下性能可与大型闭源模型相媲美。考虑到闭源模型的隐私问题和高成本,开源模型更适合工业应用。LLaMA-2-7B模型在性能、成本和隐私问题之间取得平衡,具有前景。该研究提供了使用大型语言模型进行实际业务会议摘要的实用见解。
本文介绍了一种获取语言模型中编码信念的方法,并研究了不同模型中的道德信念。研究发现,大多数模型在明确情境下选择常识行动,在模棱两可的情况下表达不确定性。一些模型在模糊情境中表现出明确偏好,尤其是闭源模型。
完成下面两步后,将自动完成登录并继续当前操作。