小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
关于管理不善的天才假说的小型练习(长链推理中的语言模型)

文章讨论了语言模型(LM)在复杂推理任务中的表现,特别是LongCoT基准测试。尽管最新模型(如GPT-5.2)在某些任务上表现不佳,但通过改进提示和训练,模型性能显著提升。研究表明,模型在处理图结构依赖时存在困难,提示设计对模型表现影响巨大。整体来看,模型能力的理解仍需深入。

关于管理不善的天才假说的小型练习(长链推理中的语言模型)

blank
blank · 2026-04-26T00:00:00Z
人工智能缩水:为何Anthropic的Claude Opus 4.7可能不如其替代模型

Anthropic发布的Claude Opus 4.7模型引发用户不满,因其在复杂推理和分析方面表现不佳,用户反映模型常常自我怀疑,导致效率低下。分析师认为这是技术发展阶段的正常现象,用户需要时间适应新工具。同时,OpenAI的Codex也在持续更新,争夺市场份额。

人工智能缩水:为何Anthropic的Claude Opus 4.7可能不如其替代模型

The New Stack
The New Stack · 2026-04-23T12:52:54Z
HRM 架构突破:用仅 2700 万参数和 1000 个训练样本超越最先进的大语言模型

新加坡Sapient Intelligence公司提出的分层推理模型(HRM)仅用2700万参数和1000个样本,在复杂推理任务中超越大型模型,表明更优的架构设计能显著提升AI性能,改变AI发展方向。

HRM 架构突破:用仅 2700 万参数和 1000 个训练样本超越最先进的大语言模型

Micropaper
Micropaper · 2026-03-02T11:30:00Z

蚂蚁推出的Ling-2.5-1T模型拥有万亿参数,具备高效执行力和情商,支持复杂推理和长文本处理,优化设计提升了Token效率,适用于多种Agent任务,是开发者可靠的开源选择。

懂人性更懂执行,蚂蚁这个万亿开源模型把情商和Agent战斗力都给拉满了

量子位
量子位 · 2026-02-19T04:47:47Z
基础模型 vs. 指令模型 vs. 思维模型

本文讨论了三种大型语言模型(LLM):基础模型、指令模型和思维模型。基础模型用于模式匹配,指令模型适合执行任务和对话,思维模型用于复杂推理。选择模型时,基础模型适合特定语言,指令模型适合大多数应用,而思维模型适合复杂问题。

基础模型 vs. 指令模型 vs. 思维模型

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2025-12-24T07:07:00Z
Claude Opus 4.5 现已在 Vercel AI Gateway 上可用

Anthropic最新模型Claude Opus 4.5现可通过Vercel的AI Gateway访问,适合复杂推理和编码任务。该模型在智能和视觉方面有所提升,特别擅长前端开发和工具使用。使用时需在AI SDK中设置模型为anthropic/claude-opus-4.5,并可调整努力参数以控制响应的令牌使用。

Claude Opus 4.5 现已在 Vercel AI Gateway 上可用

Vercel News
Vercel News · 2025-11-24T13:00:00Z
开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

Kimi K2 Thinking 是目前最大的开源模型,参数达到 1 万亿,表现优异,接近闭源模型。它在复杂推理、动态搜索和编程任务方面表现突出,并具备强大的工具调用能力。通过高效量化技术,推理速度显著提升,展现了开源模型的潜力与竞争力。

开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

爱范儿
爱范儿 · 2025-11-07T07:42:22Z

抖音SAIL团队与LV-NUS Lab联合推出的SAIL-VL2多模态大模型在106个数据集上取得了显著突破,尤其在复杂推理任务中表现出色。该模型通过创新架构和数据处理,展现了小参数规模模型的强大能力,具备细粒度视觉感知和复杂推理能力,成为开源领域的领先者。

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

量子位
量子位 · 2025-10-14T03:17:20Z

OpenAI于8月7日发布了最新的人工智能模型GPT-5,具备更强的编码、创意写作和复杂推理能力。该模型将分批向所有ChatGPT用户开放,Plus和Pro会员可享受更多功能。CEO萨姆·奥尔特曼称其为“巨大飞跃”,并表示GPT-5是实现通用人工智能的重要一步,特别在编程、创意写作和健康领域表现突出。

OpenAI发布最强模型GPT-5,免费向所有用户开放

月光博客
月光博客 · 2025-08-10T06:54:23Z

DeepSeek的梁文锋团队在ACL 2025获得最佳论文奖,提出了原生稀疏注意力(NSA)机制,处理长文本的速度提升了11倍,性能超越传统模型。NSA通过动态分层策略优化计算,显著提高推理和训练效率,尤其在复杂推理任务中表现突出。

DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文奖

量子位
量子位 · 2025-07-31T00:04:22Z

英伟达推出的Llama Nemotron Super v1.5开源模型专为复杂推理和智能体任务设计,吞吐量提升三倍,单卡高效运行。该模型通过神经架构搜索优化,兼顾准确性与效率,适合英语对话和编程任务。

英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA

量子位
量子位 · 2025-07-29T07:05:03Z
解码Google Gemini 2.5:推理、多模态与智能体能力的革命性突破

Google DeepMind发布的Gemini 2.5模型标志着AI技术的新阶段,具备长上下文理解和复杂推理能力。其“Thinking”机制显著提升了问题解决能力,并且多模态处理能力突破了时空限制。尽管面临评估和安全挑战,Gemini 2.5 Pro在多个基准测试中表现优异,预示着通用AI的未来发展。

解码Google Gemini 2.5:推理、多模态与智能体能力的革命性突破

我爱自然语言处理
我爱自然语言处理 · 2025-07-15T03:15:42Z

阿里推出的WebDancer信息检索Agent具备自主上网搜索和复杂推理能力,超越GPT-4o。该模型经过四阶段训练,能够执行多步骤任务,并在GAIA和WebWalkerQA基准测试中表现优异,开源框架促进其他智能代理的发展。

阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o | 模型&数据开源

量子位
量子位 · 2025-06-27T05:44:19Z

本研究提出了一种自动生成基于上下文的问答对的方法,旨在提升大型语言模型在复杂推理和实时知识整合方面的能力。实验结果显示,该方法在逻辑一致性和事实准确性上优于传统的人类标注问答对。

Automatic Dataset Generation for Knowledge-Intensive Question Answering Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出SHARP方法,旨在解决STEM领域大型推理模型训练中缺乏高质量、多样且可验证的问题集的问题。SHARP通过自对齐原则和三阶段框架,确保问题生成的多样性和控制,实验结果表明其在复杂推理准确性上显著优于现有方法。

SHARP: Synthesizing High-Quality Aligned Reasoning Problems for Reinforcement Learning in Large Reasoning Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本文提出了一种新的训练方法J4R,旨在提升大语言模型(LLM)在复杂推理中的评估能力。通过等效初始状态组相对策略优化算法(EIS-GRPO),J4R在多样化推理设置中表现优异,超越了现有模型,显示出显著的性能提升和应用潜力。

J4R: Learning to Judge through Equivalent Initial State Group Relative Preference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一种“预行动”方法,旨在提升大语言模型在复杂推理任务中的表现。实验结果表明,该方法在行动准确性和目标完成率上显著优于GPT-4,显示出提升小型模型性能的潜力。

Pre-Action: Enhancing the Performance of Large Language Model Agents through Multi-Step Planning and Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

字节推出的Seed1.5-VL多模态推理模型在60项基准测试中获得38项第一,表现优异。该模型结合532M视觉编码器和200亿参数,擅长复杂推理、OCR和图像理解。通过创新的训练方法和架构设计,模型在多模态数据处理上表现突出,但仍存在局限性。

拿下38项第一!字节发布Seed1.5-VL多模态推理模型

量子位
量子位 · 2025-05-14T06:20:16Z

本研究提出有界注意前缀预言机(BAPO)模型,以解决大型语言模型在复杂推理任务中的不足,揭示了内部分沟通带宽限制所带来的挑战。实验证明,连锁思维方法能有效降低任务难度。

Lost in Translation: When and Why Large Language Models Fail to Perform Global Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究探讨思维链令牌(CoT)在大型语言模型中的作用,尤其是在复杂推理任务中的表现。研究表明,仅保留中间结果的令牌可以实现类似的性能,表明CoT令牌类似于计算机程序中的变量,为理解大型语言模型的内部机制提供了新的视角。

Chain-of-Thought Tokens as Computer Program Variables

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码