小红花·文摘

该研究探讨了从人类偏好中学习奖励函数的算法，提出了基于遗憾的替代偏好模型。研究发现，采用基于贪心法的最大化奖励函数的方法更为简单和合适。该研究还对将当代大型语言模型与强化学习结合进行模型微调提出了更清晰的解释。

BriefGPT - AI 论文速递 ·

本文介绍了一种基于头肩部检测的过线客流统计技术，使用华为云ModelArts训练模型，ModelBox框架开发应用，跟踪与过线判断，贪心法匹配，本地视频文件输入，统计客流，画图输出，可用于室内出入口，减少人与人之间的遮挡。

华为云官方博客 ·