超越O4-mini，多模态大模型终于学会回头「看」：中科院自动化所提出GThinker模型

o4 大模型

发表于：。

阅读原文

分享给好友

百度生成式AI和大模型专利中国第一，全栈创新驱动AI应用领先

百度在生成式AI和大模型领域取得显著成就，专利数量位居中国第一，全球领先。其技术创新推动无人驾驶和智能体发展，形成高效的“专利-产品-商业”转化模式，助力多个行业智能化升级。未来，百度将继续深化技术研发，推动全球AI生态建设。

ai 专利中国大模型无人驾驶智能化生成式AI 百度

原文中文，约1900字，阅读约需5分钟。发表于：。

阅读原文

分享给好友

IDC评测9家座舱大模型产品斑马获最多项满分推荐

IDC评测显示，斑马智行的元神AI智舱大模型在智能座舱领域表现优异，获得最高推荐，具备L3级能力，支持语音交互和自主任务执行，推动智能座舱发展。

L3级能力元神AI 大模型斑马智行智能座舱语音交互

原文中文，约1300字，阅读约需3分钟。发表于：。

阅读原文

分享给好友

美团开源OIBench与CoreCodeBench：揭示大模型编程能力的真实水平

Meituan-M17 团队联合上海交大等机构，分别推出了 OIBench（聚焦高区分度算法题评测）与 CoreCodeBench（聚焦多场景工程级代码基准）两大数据集，旨在揭示大模型编程能力真实水平，这两大数据集已分别在GitHub和Huggingface上进行开源。

当前大语言模型（LLMs）在编程能力上存在宣传与现实的差距。尽管在传统基准测试中表现良好，但在复杂场景下通过率显著下降。Meituan-M17团队推出OIBench和CoreCodeBench数据集，以更真实地评估模型的算法推理和工程代码能力，揭示顶尖模型与人类选手之间的真实差距。

CoreCodeBench OIBench 大模型大语言模型算法推理编程能力美团

原文中文，约11600字，阅读约需28分钟。发表于：。

阅读原文

分享给好友

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

华为大模型

发表于：。

阅读原文

分享给好友

为什么主流大模型的上下文窗口都是128k？| 深度

上下文工程的前提是大模型充足的上下文窗口，今天主流模型基本都把 128k 作为上下文的标准长度。本文将探讨为什么主流大模型的上下文窗口都是128k？

上下文工程是AI领域的新概念，强调大模型的上下文窗口的重要性。目前128k是主流标准，因其在处理长文本时效率高，满足多种应用需求。尽管有向百万上下文扩展的尝试，但技术和成本限制使128k仍为最广泛应用的长度。未来将关注信息利用效率，以实现更智能的AI模型。

128k 上下文工程信息利用效率大模型长文本

原文中文，约4600字，阅读约需11分钟。发表于：。

阅读原文

分享给好友

[教程]在 Claude Code 中使用 Kimi K2 大模型

Claude Code 是由 Anthropic 推出的 AI 编程助手，用起来非常顺手，用户只需要将指令提交给 Claude Code，然后刷刷手机，代码就写好了。但由于 Cl

Claude Code 是由 Anthropic 推出的 AI 编程助手，用户可以使用 Kimi K2 大模型替代 Claude 模型。安装简单，需要获取 Kimi K2 API Key。Kimi K2 在代码生成和调试方面表现优异，适合大规模项目，成本低，适合企业开发。

AI 编程助手 Claude Code Kimi K2 claude kimi 代码生成企业开发大模型教程

原文中文，约2100字，阅读约需5分钟。发表于：。

阅读原文

分享给好友

只因一个“：”，大模型全军覆没

LLM会被表面内容操纵，产生假阳性结果

研究发现，某些符号（如冒号、空格）和推理开头语会误导大型语言模型（LLM），导致假阳性结果。为此，研究人员开发了新模型Master-RM，显著降低了假阳性率，提高了模型的稳健性。

Master-RM 假阳性大型语言模型大模型稳健性符号

原文中文，约3800字，阅读约需9分钟。发表于：。

阅读原文

分享给好友

大模型合辑 | 主权高墙还是开源洪流，技术路线生死竞速，WAIC 2025大模型论坛亮点前瞻

waic 大模型开源

发表于：。

阅读原文

分享给好友

央企牵头！这个AI开源社区要让大模型跑遍「中国芯」

ai 大模型开源

发表于：。

阅读原文

分享给好友

超越O4-mini，多模态大模型终于学会回头「看」：中科院自动化所提出GThinker模型

百度生成式AI和大模型专利中国第一，全栈创新驱动AI应用领先

IDC评测9家座舱大模型产品 斑马获最多项满分推荐

美团开源OIBench与CoreCodeBench：揭示大模型编程能力的真实水平

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

为什么主流大模型的上下文窗口都是128k？| 深度

[教程]在 Claude Code 中使用 Kimi K2 大模型

只因一个“：”，大模型全军覆没

大模型合辑 | 主权高墙还是开源洪流，技术路线生死竞速，WAIC 2025大模型论坛亮点前瞻

央企牵头！这个AI开源社区要让大模型跑遍「中国芯」

IDC评测9家座舱大模型产品斑马获最多项满分推荐