OpenAI推理模型负责人Jerry Tworek宣布离职,计划探索OpenAI难以开展的研究领域。他在OpenAI工作近七年,参与了GPT-4和Codex等项目,强调推理的重要性,离职后希望继续推动机器智能的发展。
Mini-o3是字节与港大联合开发的开源视觉推理模型,支持多轮深度推理,突破传统模型限制。通过冷启动微调和强化学习,Mini-o3在视觉搜索任务中表现优异,显著超越现有模型,提供多样化推理模式。
蚂蚁集团发布的MedResearcher-R1模型仅用2100条训练样本,在医疗AI测试中超越通用大模型,展示了专业模型在医疗领域的优势。该模型通过创新训练方法和专用工具,提高了医疗研究的准确性和效率,彰显小规模模型的潜力。
GPT-5在《宝可梦水晶》中以9517步击败赤爷,效率是普通玩家的三倍,后者通常需5天完成游戏。GPT-5的快速通关得益于较少的“幻觉”、强大的空间推理和目标规划能力,引发了玩家热议。
OpenAI发布了gpt-oss-120b和gpt-oss-20b两款开源大模型,前者适合复杂推理,后者适合低延迟应用。gpt-oss采用MoE架构,性能强大且计算需求低,支持在消费级硬件上运行。评测显示,gpt-oss-120b在多个任务中优于o3-mini,gpt-oss-20b表现也很出色。用户可通过HyperAI官网体验和部署这些模型。
OpenAI发布了gpt-oss-120b和gpt-oss-20b两个开源大模型,前者适合复杂推理,后者适合低延迟应用。两者在多项测试中表现优异,能够在消费级硬件上运行,满足多场景需求。
谷歌推出的IMO金牌模型Gemini 2.5 Deep Think在推理性能上超越o3和Grok 4,专为Ultra订阅用户设计。该模型在数学和科学领域表现优异,能够加速研究和算法开发,具备并行思维能力,提升问题解决效率。
Sdcb Chats 1.6.3 正式发布,升级至 .NET 9.0,内存占用降低57%。新增支持 o3-pro 深度思考模型,提升复杂问题分析能力。核心依赖库全面更新,增强安全性与兼容性。
在第212期节目中,讨论了上周的AI新闻,包括OpenAI推出的O3 PRO提升了ChatGPT的性能和成本效益,Anthropic吸引了OpenAI和DeepMind的人才以增强AI能力,研究显示强化负面反馈能显著提升LLM性能,以及微软Copilot的安全漏洞暴露了AI代理被黑客攻击的风险。
OpenAI推出了o3-pro,这是其最新模型,旨在提高复杂任务的响应可靠性。该模型适用于Pro和Team用户,支持Python等工具。尽管在准确性和深度上有所提升,但响应速度较慢,用户对幻觉问题表示担忧,目前不支持图像生成等功能。
OpenAI最新的推理模型o3-pro受到关注,但测试显示其推理能力有限,常常只对部分字母正确。前员工Miles Brundage批评苹果的推理研究为模式匹配。o3-pro在短上下文中表现良好,但在长上下文处理上不如Gemini 2.5 Pro。用户Ben Hylak认为,o3-pro需要更多背景信息以发挥最佳能力,并在工具使用和环境理解上有所提升。
OpenAI推出o3-pro模型,售价80美元,性能优于o3和o1-pro,特别擅长数学和编程。o3降价80%,每百万输入tokens仅需2美元。尽管o3-pro在高难任务上表现出色,但响应时间较慢且价格较高,部分用户对o3的智能水平表示质疑。
OpenAI推出的新推理模型o3-pro,能深入思考并提供精准回答,尤其在数学、科学和编程方面表现突出。该模型适用于ChatGPT Pro和Team用户,但响应时间较长。o3-pro支持工具调用,能够进行网页搜索和个性化响应,但暂不支持图像生成和Canvas功能。
完成下面两步后,将自动完成登录并继续当前操作。