小红花·文摘

本研究探讨大型语言模型在特定领域本体生成中的应用，评估DeepSeek和o1-preview模型的表现，发现它们在本体构建方面具有良好的泛化能力，为自动推理和知识表示技术的改进提供了基础。

Evaluating the Capabilities of Large Language Models in Domain-Specific Ontology Generation

BriefGPT - AI 论文速递 ·

研究表明，人工智能在医疗诊断中与医生相匹配，但在紧急决策方面仍显不足

DEV Community ·

李飞飞和吴佳俊团队推出了具身智能决策能力的评估基准EAI，全面评估了18款主流模型。测试结果显示，o1-preview在BEHAVIOR和VirtualHome环境中均获第一，促进了对大模型优缺点的深入理解。

李飞飞吴佳俊团队推出具身智能决策能力评价基准，o1-preview登顶

量子位 ·

280页PDF，全方位评估OpenAI o1，Leetcode刷题准确率竟这么高

机器之心 ·

亚利桑那州立大学的研究表明，o1-preview在复杂规划任务中表现优于o1-mini，尤其在Blockworlds任务中准确率达到98%，而mini仅为56.6%。尽管o1-preview在规划能力上表现出色，但在识别不可解问题和处理长任务时仍有不足，且成本较高，需权衡性能与成本。

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

量子位 ·

Sam Altman：新发布的推理模型 o1 preview 相当于 GPT-2 时刻，但是升级曲线会很陡峭，意味着很快就会达到它的 GPT-4 时刻 [译]

宝玉的分享 ·

在GitHub Copilot和Models中试用OpenAI o1

The GitHub Blog ·

OpenAI推出了一系列新的推理模型，名为o1-preview和o1-mini。然而，这些模型在Aider基准测试中表现不佳，仅略高于先前的模型。与GPT-4o和GPT-4o-mini相比，o1模型更慢且更昂贵。OpenAI在推理时利用增加的计算能力改进了完成度，但在解决语言模型的挑战方面仍然缺乏进展。该行业仍然严重依赖人工干预，人工智能和人类之间的任务分配存在不平衡。o1模型的改进可能是微小的，较慢的响应时间可能会影响互动性。在推理过程中增加计算能力的趋势可能是该行业的一个趋势。

OpenAI o1 发布让人联想到苹果发布会——这只是一次渐进式更新

DEV Community ·

入门指南：OpenAI o1推理模型

KDnuggets ·

介绍OpenAI o1

OpenAI ·