小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DeepSeek网页版大升级!随后宕机11小时崩上热搜,新模型真的来了

DeepSeek网页版经历11小时宕机后,用户反馈模型能力显著提升。新版本DeepSeek-V3稳定性增强,知识截止更新至2026年1月。服务恢复后仍有小问题,但整体表现令人期待。

DeepSeek网页版大升级!随后宕机11小时崩上热搜,新模型真的来了

量子位
量子位 · 2026-03-30T03:33:58Z
让 AI 自己进化自己:深入 HyperAgents

Meta于2026年开源HyperAgents,采用“Agent训练Agent”的方法实现AI自我进化。通过meta-agent观察task-agent表现,自动生成代码补丁,经过多代迭代,准确率显著提升。该框架支持多种任务场景,强调模型能力对进化效果的重要性,展示了AI自我改进的潜力与挑战。

让 AI 自己进化自己:深入 HyperAgents

乱世浮生
乱世浮生 · 2026-03-29T23:07:11Z
通用Agent能搞定购物吗?

通用Agent在电商购物中面临两个主要瓶颈:模型能力不足和数据孤岛问题。解决方案包括垂直Agent与A2A协议或UI Agent,但后者可能影响平台利益。

通用Agent能搞定购物吗?

SKYue's Home
SKYue's Home · 2026-03-21T08:22:00Z
构建 Claude Code 的经验教训:以 Agent 的视角看世界

构建Agent框架时,操作集合的设计至关重要,需要在工具数量与决策能力之间取得平衡。Claude通过工具调用执行操作,需观察模型能力以匹配合适工具。开发过程中,逐步探索和渐进式信息披露是关键,以确保模型有效使用工具。

构建 Claude Code 的经验教训:以 Agent 的视角看世界

Teach Talk
Teach Talk · 2026-03-09T01:37:48Z
MAI-UI - A GUI-centric agent framework supporting models ranging from 2B to 235B to build …

文章讨论了MAI-UI智能体框架,该框架以图形界面为中心,支持从小型到超大规模模型(2B至235B)的交互体验,旨在将基础模型能力应用于真实世界任务,提供设备与云的协同、事件感知和多模态输入支持。

MAI-UI - A GUI-centric agent framework supporting models ranging from 2B to 235B to build …

云原生
云原生 · 2026-01-09T09:51:26Z
针对哪种模型的评估?语音模型评估的分类法

本文提出了一种统一的分类法,用于评估语音模型,解决不同模型在语音处理中的评估需求。该分类法定义了三个维度:评估方面、模型能力和任务要求。通过将现有评估与模型能力和方法论需求相匹配,提供了选择和解释语音模型评估的框架,并揭示了未来基准设计的优先领域。

针对哪种模型的评估?语音模型评估的分类法

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-09T00:00:00Z

到2025年,国产AI编程工具迅速发展,逐步实现模型能力的追平、开放集成和端到端落地。AI不仅能生成代码,还能理解任务和验证结果,替代重复劳动,提升全栈能力。未来开发者需关注系统设计和不可替代的核心能力。

AI 编程 2025 总结:国产模型“能力追平”,国产编程工具还在“情感陪伴”

phodal
phodal · 2025-12-30T08:25:12Z
MCP的重大变革:为何AI引导将取代API包装器

MCP生态系统面临变革,单一的包装器无法满足需求。随着模型能力的提升,错误的工程决策风险加大。解决方案在于嵌入判断力,AI引导将教会模型思考,而非仅提供工具。通过结构化推理和经验知识,pg-aiguide等工具能有效提升模型的工程标准,避免技术债务的产生。

MCP的重大变革:为何AI引导将取代API包装器

Timescale Blog
Timescale Blog · 2025-11-25T15:49:22Z
埃隆马斯克的Grok AI在网页版中测试Fast模式 在极短的时间内响应问题

埃隆·马斯克的Grok AI正在测试Grok 4 Fast模式,允许付费用户快速获得响应。该模式比现有快速模式更快,但模型能力可能稍低。用户需在网页版设置中启用,免费用户暂时无法使用。

埃隆马斯克的Grok AI在网页版中测试Fast模式 在极短的时间内响应问题

蓝点网
蓝点网 · 2025-09-15T05:35:31Z

2025年上半年AI领域的核心趋势包括智能代理产品的兴起,AI编程的重要性提升,模型能力特别是在多模态推理方面的增强,以及行业竞争加剧,算力成为关键因素。

一份报告看尽2025上半年AI核心趋势,应用、模型、技术、行业全覆盖| 量子位智库

量子位
量子位 · 2025-08-11T06:46:27Z

Kaggle推出了Game Arena,一个新的AI基准平台,通过战略游戏评估模型能力,以解决当前AI基准测试无法跟上现代模型发展的问题。该平台提供明确的成功信号,促进公平评估,未来将扩展更多挑战以推动AI模型进步。

重新思考我们如何衡量人工智能的智能

The Keyword
The Keyword · 2025-08-04T16:00:00Z

vivo与香港科技大学联合提出的PreSelect方法是一种高效的数据筛选技术,通过计算数据的预测强度来评估其对模型能力的贡献。该方法显著降低了计算成本,提升了数据筛选的效率和质量,实验结果表明其在多项任务中优于传统方法,验证了其有效性。

全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器|港科大vivo出品

量子位
量子位 · 2025-05-16T04:27:31Z

本研究探讨了大语言模型预训练中的数据质量问题,发现增加有毒数据可以降低后期输出的毒性。实验表明,尽管有毒数据会增加生成的毒性,但去除毒性变得更容易,从而实现毒性降低与模型能力之间的平衡。

How Poor-Quality Data Affects High-Performing Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

本文介绍了提示词工程的高级技巧,包括心智模型、思维框架、模型能力边界和提示框架设计。强调与AI有效沟通,设计可复用的提示框架,优化复杂任务处理,识别认知偏见并进行输出校准,以提升LLM的交互能力。

从菜鸟到专家级的提示词工程学习指南(专家级)- 上集

dotNET跨平台
dotNET跨平台 · 2025-04-19T00:01:51Z

本研究探讨了图像分类模型信心缺失的原因,并提出了五种生成高能力反事实图像的新方法。这些反事实图像显著提高了多模态大语言模型对低模型能力原因的解释准确性,强调了反事实图像在解释低感知模型能力中的重要性。

Explaining Low Perception Model Competency with High-Competency Counterfactuals

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本文介绍了提示词工程的高级技巧,包括心智模型、思维框架、模型能力边界和提示框架设计。专家级提示词工程师需有效与AI沟通,设计可复用的提示框架,优化复杂任务处理,识别认知偏见并进行输出校准,以提升LLM的交互能力。

揭秘AI对话术!25分钟掌握专家级提示词工程,让AI乖乖听你话

dotNET跨平台
dotNET跨平台 · 2025-04-01T00:01:43Z
随着大模型在长文本处理任务中的应用日益广泛,如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。

随着大模型在长文本处理中的应用增多,传统的困惑度评估方法显现出局限性。研究表明,某些模型在困惑度上表现良好,但实际效果不佳。北京大学团队提出了新的评估指标长文本困惑度(LongPPL),更准确地反映模型在长文本处理中的能力,并提出长文本交叉熵(LongCE)以优化训练效果。

随着大模型在长文本处理任务中的应用日益广泛,如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。

机器之心
机器之心 · 2025-03-09T11:29:00Z

本研究提出了一种自动化能力发现(ACD)框架,旨在识别新模型的能力和潜在风险。通过前沿模型和开放式任务探测,ACD能够系统性地揭示模型的能力和缺陷,实验表明其能自动发现数千种能力,为AI系统的评估提供了重要进展。

Automated Capability Discovery via Model Self-Exploration

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
原来,这些顶级大模型都是蒸馏的

研究者发现许多知名的闭源和开源大语言模型(LLM)存在高蒸馏度,尤其是Claude、豆包和Gemini例外。虽然蒸馏可以提升模型能力,但过度蒸馏会导致同质化,影响模型处理复杂任务的能力。论文提出了量化蒸馏程度的方法,包括响应相似度评估(RSE)和身份一致性评估(ICE),并通过实验验证了不同模型的蒸馏程度。

原来,这些顶级大模型都是蒸馏的

机器之心
机器之心 · 2025-01-29T10:40:37Z

本研究解决了大型语言模型在遵循多重软约束方面的不足,设计了高质量输出的自动化获取管道,并引入课程学习训练范式,显著提升了模型能力,具有重要应用潜力。

Gradual Mastery: Enhancing Large Language Models' Adherence to Soft Constraints

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码