浙大与vivo合作推出LearnAct框架,通过示范学习使手机AI能够在多样场景中完成复杂操作,提升了AI性能,为个性化手机助手奠定基础。
该文章讨论了在未知的随机马尔可夫环境或游戏中,从代理人的示范学习的问题。作者通过扩展逆强化学习方法,提出了一种估计代理人偏好并构建改进策略的方法。他们使用简化的概率模型和最大后验估计来处理这个问题,并发现该算法在与其他了解动态的逆强化学习方法相比具有很高的竞争力。
本研究利用半监督学习和示范学习技术,使机器人能够识别实物属性并生成所需运动。实验证明该方法在未知海绵上成功识别属性并生成擦拭运动,优于其他方法。通过机器人硬件验证模型生成的运动,并通过预训练触觉表示编码器提高实验结果的泛化能力。
该研究探讨了在未知的随机马尔可夫环境或游戏中代理人示范学习的问题。通过扩展逆强化学习方法,估计代理人的偏好并构建改进策略。通过简化概率模型处理演示者策略和效用,使用最大后验估计来解决凸优化问题。该算法在先验分布相同的情况下与其他了解动态的逆强化学习方法相比具有竞争力。
研究人员开发了一种机器人系统,能够通过一次示范学习新任务。该系统包含视觉网络和模仿网络,前者处理图像,后者从示范中推断任务意图并在不同环境中执行。模仿网络经过多种任务训练后,能够在不同起始状态下完成任务,如堆叠彩色方块。
完成下面两步后,将自动完成登录并继续当前操作。