教AI模型说“我不确定”
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
·
熵保持强化学习
Apple Machine Learning Research
·
RubiCap:基于评分标准的强化学习用于密集图像字幕生成
Apple Machine Learning Research
·
多语言推理健身房:程序推理环境的多语言扩展
Apple Machine Learning Research
·
mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)
Apple Machine Learning Research
·
12小时掌握大型语言模型的微调技巧
freeCodeCamp.org
·
认识KARL:一个更快的企业知识代理,基于定制的强化学习
Databricks
·
一分钟读论文:《AlphaEvolve - 用 LLM 自动发现多智能体学习算法》
Micropaper
·