小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

谷歌推出NotebookLM的升级版,增强了聊天功能和推理能力,支持复杂的研究项目。新系统具备安全云计算能力,能够生成PDF报告和数据可视化。用户可以从初步想法开始,NotebookLM帮助构建资料库并进行可靠的信息搜索。这些更新已全球推出,旨在提升研究效率。

使用NotebookLM进行更高效的研究

The Keyword
The Keyword · 2026-06-08T16:00:00Z
DeepSeek V4 Pro在精度方面胜过 GPT-5.5 Pro

DeepSeek V4 Pro在精度和指令遵循方面优于GPT-5.5 Pro,尤其在复杂任务处理上表现更佳。测试显示,DeepSeek在日志处理和邮件生成等任务中更能准确执行要求,而GPT常常添加多余信息。尽管DeepSeek成本低廉,但推理深度仍不及GPT。社区对评估方法提出质疑,认为样本量小且缺乏科学性。总体来看,DeepSeek提供了“足够好”的性能,但顶尖推理能力仍由GPT和Claude掌握。

DeepSeek V4 Pro在精度方面胜过 GPT-5.5 Pro

极道
极道 · 2026-06-08T12:26:00Z
他们是由权重构成的:一篇让你重新思考AI与人类的文章

本文探讨了大语言模型的核心原理,强调知识和推理能力分布在权重网络中,而非独立模块。通过类比人类大脑,讨论了意识的涌现理论及人类对AI的情感投射,指出人类对自身智能的理解仍存在许多未解之谜。

他们是由权重构成的:一篇让你重新思考AI与人类的文章

极道
极道 · 2026-06-04T06:01:00Z
Claude Opus 4.8在ARC-AGI-3互动推理测试中得分超1%

Claude Opus 4.8在ARC-AGI-3测试中得分超过1%,尽管分数较低,但显示出AI开始具备原始推理能力。该测试要求AI在新规则下进行自适应推理,避免死记硬背,得分表明AI在陌生环境中尝试理解规则,展现出学习潜力,尽管仍有不足。这一进展被视为通向通用人工智能的重要一步。

Claude Opus 4.8在ARC-AGI-3互动推理测试中得分超1%

极道
极道 · 2026-06-01T22:40:00Z
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

快手发布了多模态大模型Keye-VL-2.0-30B-A3B,具备深度视频理解能力,采用DSA机制处理超长视频上下文,提升推理效率和准确性。该模型能够精准识别视频细节,提供高情商建议,并在复杂任务中展现强大的逻辑推理能力,标志着快手在多模态理解和自动化调度方面的重大进展,推动内容生产智能化。

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

量子位
量子位 · 2026-05-26T10:17:39Z
李飞飞再出手,空间智能的ImageNet来了

李飞飞团队发布了ESI-Bench,这是一个用于评测具身空间智能的新基准。该基准要求AI主动探索以获取信息,研究显示当前AI在空间智能方面,尤其是主动探索和推理能力上仍存在不足。ESI-Bench包含3081个任务实例,覆盖人类核心空间认知能力,旨在提升AI的空间推理能力。

李飞飞再出手,空间智能的ImageNet来了

量子位
量子位 · 2026-05-22T08:25:25Z
上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代

CX-Mind是首个将胸片诊断转化为可验证推理链的多模态大模型,提升了医学影像AI的推理能力,解决了传统AI模型的黑箱问题。该模型在多个评测中表现优异,尤其在真实世界测试中获得医生高度认可,标志着医学AI从视觉模型向推理模型的转变。

上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代

量子位
量子位 · 2026-05-18T06:57:10Z
美团 LongCat 开源 General 365:树立推理评测新标尺

大模型在逻辑推理方面存在短板,尽管在专业知识测试中表现良好,但在日常场景的通用推理中准确率较低。美团LongCat团队发布的General 365基准测试揭示了当前模型的真实能力,强调推理能力与专业知识的解耦。测试结果显示,主流模型普遍未能达到及格线,反映出其在复杂逻辑任务中的不足。

美团 LongCat 开源 General 365:树立推理评测新标尺

美团技术团队
美团技术团队 · 2026-05-15T00:00:00Z
迈向自主化:深度解析什么是 Agentic AI(代理式人工智能)

代理式人工智能(Agentic AI)是具备自主性、推理能力和执行能力的系统,能够独立完成复杂任务。与传统生成式AI不同,Agentic AI能自主规划、调用外部工具并自我修正。其核心架构包括规划、记忆、工具使用和多代理协作,应用于软件开发、自动化营销和个人助理等领域。尽管面临安全性和成本控制挑战,Agentic AI标志着人工智能向行动式的重大转变。

迈向自主化:深度解析什么是 Agentic AI(代理式人工智能)

极客技术博客’s Blog
极客技术博客’s Blog · 2026-05-12T21:41:35Z
从事物的位置到它们的用途:多模态大语言模型的空间–功能智能基准评估

本文介绍了空间功能智能基准(SFI-Bench),用于评估多模态大语言模型的高级推理能力。SFI-Bench包含1700多个基于视频的问题,重点评估结构化空间推理和功能推理。实验结果显示,现有模型在整合空间记忆与功能知识方面存在瓶颈,强调了提升多模态智能代理的必要性。

从事物的位置到它们的用途:多模态大语言模型的空间–功能智能基准评估

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-06T00:00:00Z
阿里通义VimRAG:让AI同时”读文档、看图片、看视频”

VimRAG是阿里通义团队推出的新型AI系统,解决了传统RAG在处理图文视频混合知识库时的局限。通过构建动态推理图,VimRAG实现了跨模态信息的有效整合,提升了AI的推理能力和检索准确率,使其能够更像人类进行探索和验证,适应复杂的企业知识环境。

阿里通义VimRAG:让AI同时”读文档、看图片、看视频”

迷途小书童
迷途小书童 · 2026-05-03T13:27:20Z
不好!1930年的AI都来抢程序员饭碗了

一款名为talkie-1930-13b的AI模型经过微调后成功解决了编程问题,展现出推理能力。尽管其知识仅限于1930年,但在软件工程领域的表现令人惊讶,挑战了对智能的传统理解。

不好!1930年的AI都来抢程序员饭碗了

量子位
量子位 · 2026-05-03T09:42:55Z
晨昏线科技发布目标因果世界模型GCWM1

晨昏线科技发布了“目标因果世界模型(GCWM1)”,旨在提升具身智能的推理能力。该模型通过因果链推理机制,实现理解、预测和干预的闭环。同时,公司推出了TermiBrain、TermiMaster、TermiBot和TermiDataClaw等产品,构建具身智能的可持续发展体系。

晨昏线科技发布目标因果世界模型GCWM1

全球TMT-美通国际
全球TMT-美通国际 · 2026-04-29T07:01:36Z

OpenAI 发布了 GPT-5.5 模型,API 价格较 GPT-5.4 翻倍,引发开发者不满。萨姆·奥尔特曼表示,尽管价格上涨,但实际 tokens 消耗更低,推理能力更强,能减少重复调用,降低成本。GPT-5.5 更适合自动化和复杂任务,而简单任务仍建议使用旧模型。开发者需根据需求选择合适模型。

GPT 5.5 API价格上涨100%引起众多吐槽 萨姆称价格上涨但实际消耗明显降低

蓝点网
蓝点网 · 2026-04-24T04:00:50Z
随着ChatGPT Images 2.0的推出,OpenAI现在在绘图前会进行“思考”

OpenAI推出的ChatGPT Images 2.0标志着图像生成技术的重大进步。该模型具备推理能力,能够从单一提示生成多达八幅图像,并进行自我验证。它支持多种语言,尤其在处理非拉丁文本方面表现出色,尽管在某些复杂任务上仍有局限,但为创意工作提供了更高的准确性和一致性。

随着ChatGPT Images 2.0的推出,OpenAI现在在绘图前会进行“思考”

The New Stack
The New Stack · 2026-04-21T22:54:41Z
一分钟读论文:《LLM 智能体在社交困境中的合作机制》

德国康斯坦茨大学与以色列魏茨曼科学研究所的研究首次评估了不同合作机制对大型语言模型(LLM)智能体在社交困境中的影响。研究发现,推理能力强的LLM反而更少合作,合约和调解机制最为有效。实验包括囚徒困境等经典博弈,结果显示现代LLM在单次博弈中普遍选择背叛,推理能力越强,合作越少,提示当前训练可能导致更多机会主义行为。

一分钟读论文:《LLM 智能体在社交困境中的合作机制》

Micropaper
Micropaper · 2026-04-21T00:00:00Z
教程汇总丨开源小模型综合智能水平追平GPT-5,一站测评Qwen 3.5/Gemma 4等热门模型

第三方评测机构Artificial Analysis发布报告称,Qwen3.5 27B和Gemma 4 31B在智能水平上接近GPT-5。Qwen3.5在推理能力上表现优异,但知识准确性仍有不足。两款模型支持多模态输入,适合本地部署,降低使用门槛。Gemma 4系列在多种应用场景中表现出色,具备强大的推理和语言处理能力。

教程汇总丨开源小模型综合智能水平追平GPT-5,一站测评Qwen 3.5/Gemma 4等热门模型

HyperAI超神经
HyperAI超神经 · 2026-04-17T05:04:36Z
在线教程丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力,兼顾高质量输出与低门槛部署

近年来,大模型在推理能力和效率上不断进步。Jackrong于2026年3月开源了高性能推理模型Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,该模型结合了先进的推理能力,显著提升了复杂问题的解决能力,支持流式对话生成,适用于科研、编程和教育等领域,提供个性化的智能对话支持。

在线教程丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力,兼顾高质量输出与低门槛部署

HyperAI超神经
HyperAI超神经 · 2026-04-03T07:16:39Z

Gemma 4是谷歌DeepMind推出的最新开源AI模型,具备先进的推理和自主工作流能力,支持140多种语言的视频和音频处理,适用于各种硬件。该模型在Apache 2.0许可下发布,旨在增强开发者的灵活性和数据控制。

Gemma 4:逐字节,最强大的开源模型

Google DeepMind Blog
Google DeepMind Blog · 2026-04-02T16:00:49Z
Qwen3.6 Plus 预览版大模型在 OpenRouter、七牛限免

Qwen3.6 Plus 预览版已在 OpenRouter 上线,用户可免费试用。该模型由阿里云国际提供,具备强大的推理能力,适合编码和复杂问题解决。注册 OpenRouter 账号即可使用。

Qwen3.6 Plus 预览版大模型在 OpenRouter、七牛限免

小众软件
小众软件 · 2026-04-02T02:29:08Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码