论文《排行榜幻觉》揭示了大模型竞技场的可信度问题,指出少数大厂通过私下测试和选择性报告数据,导致排行榜不公。研究显示,专有模型的数据远超开源模型,且有205个模型被静默弃用。官方回应称排行榜反映真实用户偏好,但质疑仍在。AI社区需警惕,不能仅依赖单一榜单。
在3月的调查中,超过1000名开发者对开源AI的看法显示,开源项目促进了透明度和社区合作,年轻开发者尤其重视其信任和学习潜力。尽管大多数人持积极态度,但仍有44%的人认为存在安全风险。总体来看,开源AI可能在未来逐渐取代专有模型。
大型语言模型(LLMs)在医疗、金融等行业中发挥着重要作用。开源LLMs因其透明性和灵活性受到青睐,促进了创新与定制化。尽管开源模型有优势,专有模型在性能和安全性上仍占主导地位。未来,开源与专有模型可能会共存,各自发挥不同作用。
自20世纪60年代起,IBM的主机系统开启了专有硬件和软件的时代。90年代,Linux作为开源替代品崛起,打破了这一局面。如今,Meta的Llama和Google的Gemma等开放AI模型正在挑战专有模型的主导地位,云服务商也开始将开放模型应用于自家硬件,以满足用户对低成本和灵活性的需求。
本研究提出了VERIFY管道,以解决语言模型在用户交互中的事实准确性问题,并创建了包含150个主题的FactBench数据集。研究发现,专有模型在事实性方面表现更佳,但在提示难度增加时,其表现有所下降。
完成下面两步后,将自动完成登录并继续当前操作。