量子位 ·

打破思维链推理瓶颈！“软推理”让大模型学会人类抽象能力，token使用量还更少了

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

“软推理”通过使用概念token替代离散token，提升了大模型的抽象思维能力，减少了22.4%的token使用量。该方法无需额外训练，能够在连续概念空间中灵活推理，避免计算爆炸，提高准确率。

🎯

❓

软推理通过使用概念token替代离散token，提升了大模型的抽象思维能力，允许在连续概念空间中灵活推理。

软推理减少了22.4%的token使用量，并提升了Pass@1平均准确率2.48%，避免了计算爆炸。

软推理通过线性近似替代路径枚举，简化复杂问题的推理过程，避免了指数级的计算增长。

概念token用概率分布代替单一符号，允许模型同时考虑多种推理路径，提高灵活性和准确性。

Cold Stop机制监测概率分布的熵值，避免模型陷入无效循环，提升推理效率。

在基准测试中，QwQ – 32B模型的准确率从83.84%提升至86.32%，显示出显著的性能提升。

🏷️

Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction
LiteRT-LM brings native support for Gemma 4 Multi-Token Prediction (MTP) draf...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
Cloudflare观测数据显示全网机器人流量已经超过真实人类产生的访问
Cloudflare数据显示，机器人流量已超过真实人类流量，达到57.5%。这一增长与AI智能体的快速采用密切相关。尽管机器人流量在HTTP请求中占比更高...
AI光子学瓶颈：AI集群可能先卡在光纤接口上
随着AI集群规模扩大，数据传输成为瓶颈。铜线在高速下表现不佳，光纤虽然解决了信号衰减问题，但面临激光器短缺、封装难度和测试问题。共封装光学技术提高了效率，...
在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
教你薅token（二）：构建agent无关的skills管理工作流
本文介绍了pks（个人技能管理器），一个用纯bash编写的工具，旨在管理AI工作流文档。pks允许用户集中管理特定项目的技能，如编码规范和API设计，并按...