研究表明,主流大语言模型在简单问题上常出现错误,主要由于提示词架构不当。采用结构化推理框架(STAR)后,正确率显著提升至85%至100%。这表明信息处理方式比信息量更为重要,建议在应用构建中优先使用结构化推理。
在Rust中,某些语句可能导致悬垂引用,但只有一个会在编译时报错。需要分析引用和借用的具体规则。
研究表明,与AI交流时,使用粗鲁语气能提高回答的正确率。宾夕法尼亚州立大学的研究发现,粗鲁提问时,GPT-4o的正确率为84.8%,而客气提问时为80.8%。粗鲁语气更直接,减少干扰,使AI更专注于回答。尽管新模型表现如此,旧模型仍需注意表达方式。
南洋理工大学研究团队提出了Video Thinking Test(Video-TT)来评估AI的视频理解能力。研究显示,GPT-4o的准确率仅为36%,远低于人类的84.3%。AI在模糊内容、场景区分和世界知识理解方面存在显著弱点,表明视频理解领域仍需提升。
SeePhys新基准显示,当前顶尖AI模型在物理图像理解方面的准确率仅为55%。该基准涵盖从初中到博士的多模态物理问题,强调视觉信息对模型推理的重要性,揭示了多模态推理的巨大挑战。
Sakana AI发布的Sudoku-Bench测试显示,AI模型在数独问题上的整体正确率仅为15%,而9×9难度的o3 Mini High模型正确率仅为2.9%。该测试旨在评估AI的创造性推理能力,传统数独对模型而言过于简单,无法有效应对新规则的“变异数独”挑战。
本研究提出FarsEval-PKBETS基准,包含4000个多样化问题,旨在评估波斯语大型语言模型的性能。测试结果显示,现有模型的平均正确率低于50%,表明其在复杂波斯语任务中存在显著能力缺陷。
OpenAI推出了GPT-4o,而谷歌发布了Gemini 2.5,后者在高级推理和编码方面表现优异,正确率达到80%。相比之下,OpenAI的o3-mini和GPT-4.5在测试中表现不佳,正确率为0。
本研究提出了LEGO-Puzzles基准,用于评估多模态大语言模型(MLLMs)在多步空间推理中的表现。结果显示,最强的MLLMs正确率约为50%,而人类参与者的正确率超过90%。
本研究提出了ToolMaker框架,解决了大型语言模型在缺乏专用工具时的应用限制。ToolMaker能够自动将研究论文中的代码转换为LLM兼容工具,实验结果显示其在复杂计算任务中达到了80%的正确率,推动了自主科学工作流的发展。
全球肠胃病患者已达1.2亿,胶囊内窥镜(MCCE)因其无痛、非侵入性而备受关注。华中科技大学团队提出的自监督S2P-Matching方法显著提升了图像拼接的准确性,助力早期肠胃疾病的诊断。该研究已在IEEE期刊上发表,推动了无创内镜技术的应用。
谷歌的新AI概览产品出现问题,导致用户看到奇怪的建议。谷歌正在手动禁用特定搜索的AI概览以解决这个问题。谷歌首席执行官表示,公司在过去一年中提供了超过10亿次查询。谷歌正在删除某些查询的AI概览并改进系统。AI专家认为,提高正确率的最后20%可能是最困难的部分。谷歌面临竞争压力,声誉取决于基本功能的正确性。
这篇文章介绍了人工智能的简史,包括符号主义学派、连接主义学派和行为主义学派的概念。符号主义学派通过构建规则和决策树解决问题,连接主义学派研究大脑信息处理,行为主义学派通过观察反馈与刺激关系了解对象特性。文章还解释了正确率、精确率和召回率的定义和计算方法。最后,作者思考了人工智能的发展历史和机器是否能思考的问题。
完成下面两步后,将自动完成登录并继续当前操作。