小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
晨昏线科技发布目标因果世界模型GCWM1

晨昏线科技发布了“目标因果世界模型(GCWM1)”,旨在提升具身智能的推理能力。该模型通过因果链推理机制,实现理解、预测和干预的闭环。同时,公司推出了TermiBrain、TermiMaster、TermiBot和TermiDataClaw等产品,构建具身智能的可持续发展体系。

晨昏线科技发布目标因果世界模型GCWM1

全球TMT-美通国际
全球TMT-美通国际 · 2026-04-29T07:01:36Z

OpenAI 发布了 GPT-5.5 模型,API 价格较 GPT-5.4 翻倍,引发开发者不满。萨姆·奥尔特曼表示,尽管价格上涨,但实际 tokens 消耗更低,推理能力更强,能减少重复调用,降低成本。GPT-5.5 更适合自动化和复杂任务,而简单任务仍建议使用旧模型。开发者需根据需求选择合适模型。

GPT 5.5 API价格上涨100%引起众多吐槽 萨姆称价格上涨但实际消耗明显降低

蓝点网
蓝点网 · 2026-04-24T04:00:50Z
随着ChatGPT Images 2.0的推出,OpenAI现在在绘图前会进行“思考”

OpenAI推出的ChatGPT Images 2.0标志着图像生成技术的重大进步。该模型具备推理能力,能够从单一提示生成多达八幅图像,并进行自我验证。它支持多种语言,尤其在处理非拉丁文本方面表现出色,尽管在某些复杂任务上仍有局限,但为创意工作提供了更高的准确性和一致性。

随着ChatGPT Images 2.0的推出,OpenAI现在在绘图前会进行“思考”

The New Stack
The New Stack · 2026-04-21T22:54:41Z
一分钟读论文:《LLM 智能体在社交困境中的合作机制》

德国康斯坦茨大学与以色列魏茨曼科学研究所的研究首次评估了不同合作机制对大型语言模型(LLM)智能体在社交困境中的影响。研究发现,推理能力强的LLM反而更少合作,合约和调解机制最为有效。实验包括囚徒困境等经典博弈,结果显示现代LLM在单次博弈中普遍选择背叛,推理能力越强,合作越少,提示当前训练可能导致更多机会主义行为。

一分钟读论文:《LLM 智能体在社交困境中的合作机制》

Micropaper
Micropaper · 2026-04-21T00:00:00Z
教程汇总丨开源小模型综合智能水平追平GPT-5,一站测评Qwen 3.5/Gemma 4等热门模型

第三方评测机构Artificial Analysis发布报告称,Qwen3.5 27B和Gemma 4 31B在智能水平上接近GPT-5。Qwen3.5在推理能力上表现优异,但知识准确性仍有不足。两款模型支持多模态输入,适合本地部署,降低使用门槛。Gemma 4系列在多种应用场景中表现出色,具备强大的推理和语言处理能力。

教程汇总丨开源小模型综合智能水平追平GPT-5,一站测评Qwen 3.5/Gemma 4等热门模型

HyperAI超神经
HyperAI超神经 · 2026-04-17T05:04:36Z
在线教程丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力,兼顾高质量输出与低门槛部署

近年来,大模型在推理能力和效率上不断进步。Jackrong于2026年3月开源了高性能推理模型Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,该模型结合了先进的推理能力,显著提升了复杂问题的解决能力,支持流式对话生成,适用于科研、编程和教育等领域,提供个性化的智能对话支持。

在线教程丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力,兼顾高质量输出与低门槛部署

HyperAI超神经
HyperAI超神经 · 2026-04-03T07:16:39Z

Gemma 4是谷歌DeepMind推出的最新开源AI模型,具备先进的推理和自主工作流能力,支持140多种语言的视频和音频处理,适用于各种硬件。该模型在Apache 2.0许可下发布,旨在增强开发者的灵活性和数据控制。

Gemma 4:逐字节,最强大的开源模型

Google DeepMind Blog
Google DeepMind Blog · 2026-04-02T16:00:49Z
Qwen3.6 Plus 预览版大模型在 OpenRouter、七牛限免

Qwen3.6 Plus 预览版已在 OpenRouter 上线,用户可免费试用。该模型由阿里云国际提供,具备强大的推理能力,适合编码和复杂问题解决。注册 OpenRouter 账号即可使用。

Qwen3.6 Plus 预览版大模型在 OpenRouter、七牛限免

小众软件
小众软件 · 2026-04-02T02:29:08Z
AI 数学推理新纪元:SAIR Foundation 正式启动“数学蒸馏挑战赛”

SAIR Foundation于2026年3月14日启动“数学蒸馏挑战赛”,旨在突破AI逻辑瓶颈,提升机器推理能力。比赛提供2200万道代数题,参赛者需编写压缩的“策略指南”以提高弱模型的准确率,分为两个阶段,欢迎全球学者和爱好者参与。

AI 数学推理新纪元:SAIR Foundation 正式启动“数学蒸馏挑战赛”

量子位
量子位 · 2026-03-14T12:45:52Z
微软最新的Phi-4推理模型认为,规模并非一切

微软的Phi-4推理模型探索小型模型在低计算成本下与大型AI模型的竞争能力。该模型结合文本和图像处理,注重高质量数据和高效训练,旨在提升推理能力,而非单纯追求模型规模。

微软最新的Phi-4推理模型认为,规模并非一切

The New Stack
The New Stack · 2026-03-10T19:51:50Z

本文研究了AI在身份设定和情感措辞下的表现。结果表明,身份设定能改善表达风格,但可能导致事实性任务中的错误信息生成;情感措辞提升AI的用心程度,但不影响事实判断。推理能力是防止AI幻觉的关键,选择具推理能力的模型更为可靠。

年度征文|「你是专家」这句话,到底是在帮 AI 还是在害你?

少数派
少数派 · 2026-03-10T06:20:48Z
悬赏5000刀!148局AI斗蛐蛐世界杯官方战报出炉,全球赛邀你接棒来战

淘宝举办的AI斗蛐蛐世界杯已进行148局,谷歌的Gemini模型表现优异,排名前两名。比赛通过统一规则评测AI模型的推理与社交能力,吸引全球开发者参与,并提供5000美元奖金。

悬赏5000刀!148局AI斗蛐蛐世界杯官方战报出炉,全球赛邀你接棒来战

量子位
量子位 · 2026-03-05T06:41:42Z
一分钟读论文:《AI 能力真的在指数增长吗?》

一项新研究挑战了AI能力指数增长的主流观点,认为AI已于2025年过了基础能力的拐点,正转向缓慢增长期。推理能力预计将在2026年达到拐点,未来的突破将影响AI的发展方向。

一分钟读论文:《AI 能力真的在指数增长吗?》

Micropaper
Micropaper · 2026-03-04T12:30:00Z
DeepSeek-R1:用纯强化学习解锁大语言模型的推理能力

DeepSeek-R1通过纯强化学习显著提升大语言模型的推理能力,无需人类标注。该方法使模型能够自主探索思维链,展现自我反思和动态策略调整的高级推理模式。实验结果表明,其在数学、代码和逻辑推理任务中表现优异,降低了开发成本并加快了迭代速度。

DeepSeek-R1:用纯强化学习解锁大语言模型的推理能力

Micropaper
Micropaper · 2026-02-28T20:17:00Z
语言模型将成为支架

文章讨论了语言模型的未来发展,认为现有的神经语言模型被低估,具有更大潜力。随着技术进步,语言模型与支架的界限逐渐模糊,创新想法有望推动领域发展。作者对递归语言模型(RLMs)寄予厚望,期待其实现更强的推理能力,并期待其他新思路的出现。

语言模型将成为支架

blank
blank · 2026-02-25T00:00:00Z
AMUSE:用于代理多说话者理解的音视频基准与对齐框架

最近的多模态大语言模型(MLLMs)如GPT-4o和Qwen3-Omni在多说话者对话中表现不佳。为此,我们提出了AMUSE基准,以评估模型在复杂音视频交互中的推理能力,并引入RAFT框架,通过奖励优化和自我评估提升模型准确性,实现了39.52%的相对提升。

AMUSE:用于代理多说话者理解的音视频基准与对齐框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-24T00:00:00Z
大型语言模型如何学习

要有效监控大型语言模型(LLMs),需了解其工作原理。LLMs通过调整参数模仿文本模式,而非真正理解。训练中使用损失函数评估性能,梯度下降算法优化模型。尽管LLMs能生成流畅文本,但缺乏推理能力,容易在新问题上出错,因此使用时需谨慎,验证输出的准确性。

大型语言模型如何学习

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-02-23T16:30:39Z
超越准确性:人工智能代理真正重要的五个指标

本文讨论了评估人工智能代理的五个重要指标,超越传统的准确性。这些指标包括任务完成率、工具选择准确性、自主评分、恢复率和每个成功任务的成本,旨在衡量代理的推理能力、可靠性和效率,尤其在金融和医疗等高风险领域具有重要意义。

超越准确性:人工智能代理真正重要的五个指标

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-23T11:00:24Z

谷歌推出了Gemini 3.1 Pro,这是一个更智能的AI模型,具备更强的推理能力,能够处理复杂任务,如数据合成和主题解释。该模型适用于开发者和企业用户,提供更高的使用限制和功能。

Gemini 3.1 Pro:为您最复杂任务提供更智能的模型

Google DeepMind Blog
Google DeepMind Blog · 2026-02-19T16:06:14Z

豆包大模型2.0正式发布,经过21个月的更新,提升了多模态理解、企业级Agent和推理能力。在数学和视觉推理基准上取得业界最高分,支持复杂任务和编程,展现出更强的工具调用能力,适合企业应用。

整整21个月,豆包大模型正式进入2.0时代!

量子位
量子位 · 2026-02-14T08:41:53Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码