小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
AI 范式雷达:《从端到端成功率到细粒度规划诊断》

一项研究评估了12个多模态大语言模型(MLLM)的规划能力,发现它们在不可解任务识别中的正确拒绝率仅为34.7%。研究提出了智能体规划基准(APB),通过五大评估设置揭示了模型在长程规划、工具鲁棒性和校准拒绝等方面的系统性弱点,强调规划能力的重要性。结果显示,模型在面对不可解任务时往往盲目尝试,可能导致资源浪费和有害输出。

AI 范式雷达:《从端到端成功率到细粒度规划诊断》

Micropaper
Micropaper · 2026-06-11T00:00:00Z
HumanEgo——从半小时人类第一视角视频中进行零样本学习的4大关键点:对人类手臂进行图像修补、将每只手和每个物体编码为一个交互中心Token、流匹配策略、稠密辅助目标

HumanEgo框架通过人类第一视角视频学习机器人策略,成功解决了人类与机器人之间的具身鸿沟。研究者利用佩戴的Aria眼镜采集示范数据,实现了零样本迁移,平均成功率达到92.5%。该方法无需机器人数据,数据高效,支持在新环境中稳健迁移,显著提升了机器人操作效率。

HumanEgo——从半小时人类第一视角视频中进行零样本学习的4大关键点:对人类手臂进行图像修补、将每只手和每个物体编码为一个交互中心Token、流匹配策略、稠密辅助目标

结构之法 算法之道
结构之法 算法之道 · 2026-06-08T15:46:32Z
将您的架构待办事项与技术路线图优先级(TRP)对齐

成功的数字化转型需要业务和技术利益相关者在编写代码前达成共识。70%的转型失败源于利益相关者不一致。使用技术路线图优先级(TRP)框架,组织可以快速确定优先事项,创建可执行的架构待办事项。TRP通过成本和影响的矩阵帮助团队明确优先级,确保资源集中于高价值项目,从而提高转型成功率。

将您的架构待办事项与技术路线图优先级(TRP)对齐

AWS Architecture Blog
AWS Architecture Blog · 2026-06-03T18:08:51Z
The Harness Architecture That Every AI Company is Playing With: An In-Depth Analysis of the Harness Architecture

Harness是一种新型AI智能体架构,由五大子系统构成,专注于工程实现而非设计抽象。它通过固定结构和上下文管理提升智能体的稳定性和成功率,标志着AI进入工程学科时代。

The Harness Architecture That Every AI Company is Playing With: An In-Depth Analysis of the Harness Architecture

dotNET跨平台
dotNET跨平台 · 2026-05-24T00:11:00Z
六步用GPT-Image-2做网站界面:从设计图到真实前端的完整教程

本文介绍了使用GPT-Image-2模型将设计图转化为网站前端界面的六步流程,包括撰写提示词、生成设计方案、分析设计图、搭建界面、修改细节和加入个人风格。通过这一流程,成功率可提高至80%以上,适合希望创建专业网站的用户。

六步用GPT-Image-2做网站界面:从设计图到真实前端的完整教程

极道
极道 · 2026-05-01T11:42:00Z
跨维智能DexWorldModel斩获榜首,世界模型真正的考场在机器人执行里

具身智能领域最近发布了GEN-1,成功率超过99%,速度提升2-3倍,微调成本降低至1/10。CEO Pete Florence强调,未来的世界模型应关注机器人任务的成功率,而非仅追求视觉质量。研究表明,高视觉质量与具身任务能力相关性较低,DexWorldModel通过改进表示、记忆、推理和数据引擎,提升了机器人在真实环境中的表现,展示了具身世界模型的潜力。

跨维智能DexWorldModel斩获榜首,世界模型真正的考场在机器人执行里

量子位
量子位 · 2026-04-21T00:06:39Z
20亿美金苏度科技具身首秀即大招!0真机数据,zero-shot,跑出98%首次抓取成功率

苏度科技发布了具身机器人系统Sudo R1,首次实现近100%的零样本抓取成功率。该模型通过纯仿真数据训练,无需真实数据,突破了行业瓶颈。团队与宁德时代等企业合作,计划实现多工位覆盖的机器人系统。

20亿美金苏度科技具身首秀即大招!0真机数据,zero-shot,跑出98%首次抓取成功率

量子位
量子位 · 2026-04-20T05:34:32Z
Zo Computer如何在Vercel上将AI可靠性提升20倍

Zo Computer是一款个人AI云平台,提供用户自己的云计算环境。其成功率从98%提升至99.93%,重试率降至0.34%。通过Vercel的AI基础设施,Zo简化了模型支持,提高了响应速度和可靠性。目标是到2026年吸引100万用户,推动个人云计算的普及。

Zo Computer如何在Vercel上将AI可靠性提升20倍

Vercel News
Vercel News · 2026-04-17T04:00:00Z
具身Scaling Law押对了!独角兽新品1小时学会新任务,重复1800次成功率99%

独角兽公司Generalist推出新模型Gen-1,机器人成功率提升至99%,效率提高三倍。Gen-1通过人类活动数据训练,具备即兴解决问题的能力,能够独立处理复杂任务,展现出“灵性”。该技术基于Scaling Law,证明数据和算力显著提升机器人智能。

具身Scaling Law押对了!独角兽新品1小时学会新任务,重复1800次成功率99%

量子位
量子位 · 2026-04-06T05:17:06Z
通过探索扩展代理的合成任务生成

AutoPlay是一种可扩展的任务生成管道,通过探索交互环境生成多样的可执行任务,减少对人工标注的依赖。在Android和Ubuntu应用中分别生成了2万和1万任务,显著提高了成功率。

通过探索扩展代理的合成任务生成

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-24T00:00:00Z
一种更好的复杂视觉任务规划方法

麻省理工学院的研究人员开发了一种基于生成性人工智能的长期视觉任务规划方法,成功率约为70%。该系统结合视觉-语言模型与正式规划能力,能够处理复杂视觉输入并生成有效规划,适用于多种实际应用。

一种更好的复杂视觉任务规划方法

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-03-11T04:00:00Z
变更作为指标:通过变更交付信号衡量系统可靠性

系统变更是生产事故的主要原因,因此变更相关指标应被视为可靠性信号。关键指标包括变更交付时间、成功率和事故泄漏率。通过事件驱动的数据架构,组织可以有效监测和分析变更,从而提升系统的可靠性和交付效率。

变更作为指标:通过变更交付信号衡量系统可靠性

InfoQ
InfoQ · 2026-03-09T09:00:00Z
龙虾最佳适配模型,OpenClaw之父给出了推荐

PinchBench榜单显示,中国模型在成功率和速度上表现优异,特别是MiniMax M2.5超越其他模型。尽管价格较高,该榜单为模型选择提供了明确参考。PinchBench由Kilo AI团队开发,专注于真实任务的评测。

龙虾最佳适配模型,OpenClaw之父给出了推荐

量子位
量子位 · 2026-03-09T04:20:12Z
预测成功率超80%!康奈尔大学提出创新AI框架,解码高导电性锂离子电解质的化学机制

随着新能源电池市场的扩展,电解质性能优化变得至关重要。康奈尔大学的研究团队开发了SCAN框架,提升了电导率预测的准确性,成功率达到81.08%。该框架通过动态路由机制解决了长尾数据问题,从而提高了电池研发效率。

预测成功率超80%!康奈尔大学提出创新AI框架,解码高导电性锂离子电解质的化学机制

HyperAI超神经
HyperAI超神经 · 2026-02-26T06:04:10Z
将入职时间从48小时缩短至4小时:亚马逊Key的事件驱动平台内幕

亚马逊Key团队重构了事件平台,采用中心化、事件驱动架构,解决了可扩展性和可靠性问题。新系统每日支持数百万事件,延迟低至毫秒,事件处理速度达到每秒2000个,成功率99.99%,集成效率显著提高。

将入职时间从48小时缩短至4小时:亚马逊Key的事件驱动平台内幕

InfoQ
InfoQ · 2026-02-19T15:00:00Z

极佳视界推出的GigaBrain-0.5M大模型成功率接近100%,能够完成叠衣服、冲咖啡等复杂任务。该模型基于世界模型进行强化学习,采用人机协作机制,显著提升任务成功率和决策策略的鲁棒性。通过海量训练数据,模型在长时程操作中表现优异,推动具身智能的发展。

捅破具身智能天花板!极佳视界新VLA大模型登场,复杂长时程任务近100%成功率

量子位
量子位 · 2026-02-15T05:52:39Z
春运抢票秒空?这款.NET 开发的抢票神器,帮你稳稳团圆

Bypass分流抢票是一款免费、无广告的自动抢票软件,专为春运等高峰期设计,支持Windows系统,直接对接12306,保护用户隐私。软件提供全流程自动抢票、批量设置、个性化选座和改签功能,显著提高抢票成功率,适合新手和老用户使用。

春运抢票秒空?这款.NET 开发的抢票神器,帮你稳稳团圆

dotNET跨平台
dotNET跨平台 · 2026-02-03T23:55:32Z
机器人具身操作评估新范式来了,从此告别单一成功率指标

AI短名单是对长篇文章的简要概述,旨在提炼出核心信息。

机器人具身操作评估新范式来了,从此告别单一成功率指标

机器之心
机器之心 · 2026-01-31T12:22:28Z
蚂蚁灵波开源具身世界模型LingBot-VA,机器人复杂任务成功率较Pi0.5提升20%

抱歉,您提供的文本内容过于简短,无法进行有效的总结。请提供更详细的文章内容。

蚂蚁灵波开源具身世界模型LingBot-VA,机器人复杂任务成功率较Pi0.5提升20%

机器之心
机器之心 · 2026-01-30T07:07:38Z
当每个人都能指挥一支 AI 大军,什么能力最重要?

善用AI代理的人通常具备管理经验,能够有效定义和拆解问题。成功率是关键,需提供清晰的指令和反馈。在AI时代,管理能力愈发重要,需练习任务委托和专业知识,以提升执行效果。

当每个人都能指挥一支 AI 大军,什么能力最重要?

宝玉的分享
宝玉的分享 · 2026-01-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码