小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

文章讨论了AI行业的现状,提到SpaceX以600亿美元收购Cursor引发市场泡沫质疑。作者认为开源代码是最佳编程工具,尽管闭源模型如GPT-5.4和Opus 4.7成本高但性能优越。文章还提到AI行业存在“AI精神病”,对未来持悲观态度,呼吁结束不切实际的追逐。

人工智能没有护城河

the singularity is nearer
the singularity is nearer · 2026-04-21T16:00:00Z

Meta计划于明年春季推出名为「牛油果」的闭源模型,该模型在训练中使用了阿里巴巴的Qwen等开源AI。这一转变标志着Meta从开源向闭源战略的转变,引发市场和投资者的关注。

Meta公开抄阿里Qwen作业,还闭源了…

量子位
量子位 · 2025-12-11T03:48:25Z

KRIS-Bench项目评测图像编辑模型的推理能力,发现所有模型在程序性推理上表现不佳。该项目从事实性、概念性和程序性知识三个层面进行系统评估,涵盖多种编辑任务。测试结果显示,闭源模型优于开源模型,尤其在深层推理能力上明显不足。团队希望推动AI向具备人类认知能力发展。

知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳

量子位
量子位 · 2025-06-13T06:20:56Z

本研究提出了KORGym,一个灵活的动态评估平台,旨在解决大型语言模型推理评估的局限性。通过对19个大型语言模型和8个视觉语言模型的实验,发现闭源模型表现更优,预计将推动语言模型推理研究的发展。

KORGym: A Dynamic Game Platform for Evaluating Reasoning in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了$ exttt{Complex-Edit}$,用于评估不同复杂度指令的图像编辑模型。结果表明,开放源模型在复杂任务中的表现显著低于闭源模型,指令复杂度的增加影响了模型的信息保留和美学质量,揭示了合成数据的负面影响。

复杂编辑:可控复杂性图像编辑基准的链式指令生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

亚马逊与香港科技大学、圣母大学合作推出Shopping MMLU评测基准,旨在评估大语言模型在在线购物领域的能力。该基准涵盖57个任务,解决多任务性和少样本性问题,基于真实购物数据构建。研究表明,闭源模型优于开源模型,但后者逐渐缩小差距。Shopping MMLU为后续研究提供了重要参考,并已开源。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024

量子位
量子位 · 2024-11-20T04:28:53Z

本研究评估了闭源和开源大型语言模型,发现较小的开源模型如LLaMA-2-7B在性能上可与大型闭源模型相媲美。考虑到闭源模型的隐私问题和高成本,开源模型更适合工业应用。LLaMA-2-7B模型在性能、成本和隐私问题上取得平衡,具有前景。该研究提供了使用大型语言模型进行实际业务会议摘要的实用见解。

CREAM:基于比较的无参考ELO排名自动评估会议总结

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

该研究介绍了AQA-Bench,一个评估大规模语言模型在算法环境中顺序推理能力的新基准。研究发现闭源模型表现较好,简单交互示例可能损害少样本性能,少样本性能可通过遵循最优策略的前继步骤数量提升,性能和模型大小之间的缩放相关性不总是显著。希望推动对LLM顺序推理能力的研究。

只需100个实例:通过测试少量实例预测新LLM在未见数据上的成功

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

人工智能Meta发布了Llama 3.1系列开放模型,最高提供4050亿参数版本,能力超过GPT-4和Claude 3.5 Sonnet等闭源模型。开发者可通过云平台或Meta下载模型进行调试。Llama 3.1-405B版能力超过GPT-4-0125、GPT-4o和Claude 3.5 Sonnet。扎克伯格表示,Llama已在开放性、可修改性和成本效率等方面处于领先地位。

Meta发布Llama 3.1开放模型 最高4050亿参数 能力超过GPT-4等非开放模型

蓝点网
蓝点网 · 2024-07-24T06:46:08Z
零一万物发布千亿参数模型 Yi-Large,李开复:中国大模型赶上美国,立志比肩 GPT-5

中国大模型公司零一万物发布了第二款闭源模型Yi-Large,该模型在全球头部大模型的中英文双语PK中表现出色。Yi-Large在AlpacaEval 2.0的模型排行榜上排名世界第二,英语能力主要指标LC Win Rate排名世界第一。零一万物还宣布启动下一代Yi-XLarge MoE模型训练,冲击GPT-5的性能与创新性。此外,零一万物发布了一站式AI工作平台「万知」,提供会议纪要、周报、写作助手等功能。

零一万物发布千亿参数模型 Yi-Large,李开复:中国大模型赶上美国,立志比肩 GPT-5

爱范儿
爱范儿 · 2024-05-13T09:34:12Z
开源模型与闭源模型之间的差距有多大?|莫尔索随笔 Vol.2

开源模型与闭源模型之间的差距有多大?

开源模型与闭源模型之间的差距有多大?|莫尔索随笔 Vol.2

莫尔索
莫尔索 · 2024-04-22T00:00:00Z
开源大模型与闭源大模型哪个更好?

开源与闭源大语言模型的好坏无法从属性推导,开源模型提供免费部署的LLM,商业使用可能需要特殊授权,开源模型背后的动机是为了遏制竞争对手,对领先者的商业利益有破坏作用,国内情况不同,FOMO情绪更多,开源与闭源并不重要,国内企业更注重可控性和甲方信任,目前最好的模型是闭源的,但评价模型好坏的标准多样,经济性也是重要指标,开源模型有社会意义,可以促进创新和机会。

开源大模型与闭源大模型哪个更好?

蟹壳
蟹壳 · 2024-04-20T00:00:00Z

百度不打算开源人工智能模型文心一言,因为李彦宏认为闭源模型能持续领先,开源模型只是验证应用,无法实现众人拾柴火焰高。闭源模型有商业模式,能赚钱聚集算力和人才。闭源模型的推理成本更低、响应速度更快,能力更强。

李彦宏内部讲话称AI模型闭源才有商业模式能够赚钱 从而聚集算力和人才

蓝点网
蓝点网 · 2024-04-12T06:14:08Z

大型语言模型对时间信息的推理和保留能力有限,闭源模型显示知识缺口,微调方法未带来显著性能提升。

评估大型语言模型中的时间信息和推理技能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-19T00:00:00Z

本研究评估了闭源和开源大型语言模型,发现较小的开源模型在零-shot情况下性能可与大型闭源模型相媲美。考虑到闭源模型的隐私问题和高成本,开源模型更适合工业应用。LLaMA-2-7B模型在性能、成本和隐私问题之间取得平衡,具有前景。该研究提供了使用大型语言模型进行实际业务会议摘要的实用见解。

微型巨人:在真实世界中,小一些的大型语言模型能在会议摘要中斩获更高的分数吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-01T00:00:00Z

本文介绍了一种获取语言模型中编码信念的方法,并研究了不同模型中的道德信念。研究发现,大多数模型在明确情境下选择常识行动,在模棱两可的情况下表达不确定性。一些模型在模糊情境中表现出明确偏好,尤其是闭源模型。

Denevil:通过指令学习解读和引导大型语言模型的道德价值

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码