麻省理工学院研究人员开发了一种新方法,提升人工智能模型在视觉和听觉学习方面的能力。该方法能够自动检索视频和音频数据,改善机器人对真实环境的理解。研究团队创建了无需人工标注的模型,能更精确地对齐音视频数据,提高视频检索和场景分类的准确性。未来,他们希望将此技术应用于日常工具中。
完成下面两步后,将自动完成登录并继续当前操作。