小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

本文探讨了人形机器人在“行走-操作”任务中的挑战,提出了一种集成式全身操控系统,结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transformer(HTD),通过多模态学习提升机器人对接触状态的理解和反应能力,简化了学习过程,旨在提高人形机器人的操作能力和灵活性。

HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

结构之法 算法之道
结构之法 算法之道 · 2026-04-23T10:29:30Z
教AI模型说“我不确定”

麻省理工学院的研究人员开发了一种新训练方法“带校准奖励的强化学习”(RLCR),该方法提高了AI模型的信心估计准确性,减少了90%的校准误差,同时保持或提升了准确性。通过惩罚模型的自信错误回答,促使模型在回答问题时考虑不确定性,适用于医疗、金融等领域,提升了AI输出的可靠性。

教AI模型说“我不确定”

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2026-04-22T19:15:00Z
国产多模态Agent拿下医学分割SOTA!不用改模型、不加token

浙江大学和上海人工智能实验室提出的IBISAgent框架,将医学图像分割重新定义为多步视觉决策过程,克服了现有方法的局限。通过冷启动和强化学习,IBISAgent在多个基准测试中显著提升了分割性能,展示了自主多轮交互推理的优势,为智能医学图像分析奠定了基础。

国产多模态Agent拿下医学分割SOTA!不用改模型、不加token

量子位
量子位 · 2026-04-22T07:17:04Z

本文探讨了大模型对齐的流程,包括监督微调(SFT)、奖励模型(RM)和强化学习(RL)。对齐不仅提升了模型对指令的理解能力,还影响推理能力和回答质量。文章介绍了直接偏好优化(DPO)作为一种新方法,简化了训练流程,减少了模型数量,提高了效率。未来研究将关注可验证奖励和长上下文推理,以增强模型的推理能力和应用范围。

【大模型基础设施工程】09:RLHF 与对齐流水线

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

ClawGUI是一个开源框架,旨在解决GUI智能体的训练、评测和部署问题。它通过在线强化学习与真实设备交互,提升模型性能。ClawGUI-2B在MobileWorld基准上取得17.1 SR的成绩,显著超越基线,并支持自然语言控制手机,推动GUI智能体的实际应用。

教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

量子位
量子位 · 2026-04-19T04:25:19Z
刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero,支持多种视觉任务,克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型,展示了广泛数据对视觉推理的促进作用。

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

量子位
量子位 · 2026-04-11T01:23:42Z
熵保持强化学习

本文探讨了强化学习中的熵保持问题,指出许多策略梯度算法在训练过程中自然降低熵,限制了探索能力。作者建议主动监控和控制熵,并提出了REPO和ADAPO等算法以调节熵,从而保持模型多样性,提高策略的性能和适应性。

熵保持强化学习

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-30T00:00:00Z
OpenClaw外挂MetaClaw深度解析:这只龙虾边干活边自我进化!

MetaClaw是一种智能体系统,通过规则注入和强化学习实现自我进化。它在真实环境中学习,记录互动并总结经验,以提升性能。系统分层处理规则,确保高效学习,避免旧数据干扰。MetaClaw能够在用户不知情的情况下持续进化,逐渐成为更可靠的助手,展现出巨大潜力。

OpenClaw外挂MetaClaw深度解析:这只龙虾边干活边自我进化!

极道
极道 · 2026-03-29T23:22:00Z

本报告探讨OpenClaw体系下Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练门槛,实现训练自动化,并提升Agent的任务性能。

【Triton 教程】triton_language.erf

HyperAI超神经
HyperAI超神经 · 2026-03-24T06:36:07Z
Momenta不选VLA选世界模型,大众首发!曹旭东:传感器重要性最后

Momenta推出R7大模型,利用世界模型增强AI对物理世界的理解。CEO曹旭东表示,传统模仿学习无法超越人类,转向强化学习是关键。Momenta强调算法架构和数据的重要性,传感器排在第三位。

Momenta不选VLA选世界模型,大众首发!曹旭东:传感器重要性最后

量子位
量子位 · 2026-03-23T08:47:07Z
世界模型+强化学习:轻舟智航于骞在德国定义通向通用物理AI的必由之路

于骞博士在慕尼黑汽车论坛上指出,世界模型与强化学习是实现物理AI的关键。轻舟智航通过百万台量产验证展示技术优势,计划与德国汽车工业深度融合,推动全球化布局。

世界模型+强化学习:轻舟智航于骞在德国定义通向通用物理AI的必由之路

量子位
量子位 · 2026-03-19T11:02:55Z
RubiCap:基于评分标准的强化学习用于密集图像字幕生成

RubiCap是一种新型强化学习框架,通过大型语言模型生成细致的奖励信号,有效解决图像字幕生成中的多样性和泛化问题。在CapArena和CaptionQA基准测试中表现优异,超越传统方法和人类专家注释。

RubiCap:基于评分标准的强化学习用于密集图像字幕生成

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-16T00:00:00Z
HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互):为完成螺栓装配,主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

本文探讨了一种双执行体强化学习框架,结合人类反馈优化视觉-语言-动作(VLA)模型。通过“对话与微调”机制,机器人在长时域操作中实现高效学习,成功率达到100%。该方法在多任务设置中展现出良好的样本效率和训练稳定性,适用于复杂的机器人操作任务。

HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互):为完成螺栓装配,主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

结构之法 算法之道
结构之法 算法之道 · 2026-03-14T16:24:12Z
多语言推理健身房:程序推理环境的多语言扩展

多语言推理健身房是推理健身房的扩展,支持14种语言的可验证推理问题生成。我们翻译了94个任务模板,确保语言自然性。该平台可用于强化学习和评估,促进多语言推理模型的研究。

多语言推理健身房:程序推理环境的多语言扩展

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-13T00:00:00Z
mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

mAceReason-Math是一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)研究。该数据集包含来自AceReason-Math语料库的挑战性数学问题翻译,覆盖14种语言,每种语言超过10,000个样本,旨在提升多语言RLVR的研究和基准测试。

mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-13T00:00:00Z
12小时掌握大型语言模型的微调技巧

该课程帮助学员定制大型语言模型(LLM),内容涵盖参数高效微调、强化学习、行业工具和多模态AI,适合希望深入了解AI系统的学习者。

12小时掌握大型语言模型的微调技巧

freeCodeCamp.org
freeCodeCamp.org · 2026-03-11T16:01:21Z
认识KARL:一个更快的企业知识代理,基于定制的强化学习

KARL模型通过强化学习显著降低了推理成本和延迟,同时提升了质量,适用于Databricks客户,帮助他们创建定制的RL模型,尤其在处理复杂问题时表现优异。

认识KARL:一个更快的企业知识代理,基于定制的强化学习

Databricks
Databricks · 2026-03-05T14:40:00Z
一分钟读论文:《AlphaEvolve - 用 LLM 自动发现多智能体学习算法》

DeepMind 的 AlphaEvolve 系统通过 LLM 驱动的进化编码代理,自动发现新的多智能体强化学习算法,突破了传统依赖人类直觉的设计瓶颈。核心成果 VAD-CFR 和 SHOR-PSRO 展示了 LLM 在算法创造中的潜力,推动了 AI 自主发现算法的发展。

一分钟读论文:《AlphaEvolve - 用 LLM 自动发现多智能体学习算法》

Micropaper
Micropaper · 2026-03-04T00:00:00Z
学习推理以检测幻觉跨度

本文探讨了大语言模型(LLMs)生成幻觉内容的问题,提出了RL4HS强化学习框架,通过跨度级奖励函数提高幻觉检测的准确性。研究表明,链式思维(CoT)推理能有效识别幻觉内容,RL4HS在RAGTruth基准测试中优于传统模型,强调了强化学习在幻觉检测中的重要性。

学习推理以检测幻觉跨度

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-03T00:00:00Z

DeepSeek R1 是中国 AI 公司推出的模型,采用纯强化学习实现自主推理,突破传统监督学习模式。R1-Zero 模型无需人类标注,展现出链式推理能力。GRPO 算法提升训练效率,简单的奖励系统驱动复杂推理策略。R1 的成功降低了推理模型的门槛,启发了新的研究方向,展示了纯强化学习的潜力,标志着 AI 训练的重要转变。

DeepSeek-R1:用纯强化学习解锁大语言模型的推理能力

Micropaper
Micropaper · 2026-03-01T22:30:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码