千问推出AI打车功能,用户可通过一句话选择车型、地点和时间,系统能理解复杂指令,自动匹配车辆并支持途经点调整,提升出行服务体验。
阿里发布的Qwen-Image-2.0模型支持1K token长文本输入,能准确理解复杂指令,中文渲染效果显著提升。该模型在图像生成和编辑方面表现优异,适合日常使用。
上海AI实验室发布新基准RISEBench,评测图像编辑模型的理解能力。GPT-4o-Image仅完成28.9%的任务,开源模型BAGEL仅5.8%。新基准考察时间、因果、空间和逻辑推理,显示当前模型在复杂指令理解上存在显著不足。
本研究提出了一种新颖的结构化推理方法ARQs,显著提升了大型语言模型在复杂指令下的表现,尤其在多轮对话中成功率达到90.2%。
本研究提出了AIR框架,以解决大语言模型在处理复杂指令时的挑战。通过自动迭代生成符合实际场景的指令,构建了包含10K复杂指令的AIR-10K数据集,显著提升了模型性能。
本研究探讨了较小语言模型(SLMs)在指令演变中的优势,发现SLMs能够生成更复杂和多样的指令变体,具有更广泛的输出空间。同时,提出的IC-IFD指标有效提升了指令数据的评价。
本研究提出了一种新技术——约束反向翻译,以提高大型语言模型(LLMs)对复杂指令的遵循能力。研究表明,在CRAB数据集上进行后训练后,多个LLMs的表现显著提升,约束反向翻译可作为有效的辅助训练目标。
本文介绍了CELLO基准,用于评估大型语言模型(LLMs)理解复杂指令的能力。通过引入新数据集Conifer和顺序指令调整,提升了模型在多级指令遵循方面的表现。研究表明,使用AI生成的指令进行微调能有效提高模型性能,尤其在高复杂度任务中。此外,提出了FollowBench基准,揭示LLMs在遵循细粒度约束方面的不足,指明未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。