千问推出AI打车功能,用户可通过一句话选择车型、地点和时间,系统能理解复杂指令,自动匹配车辆并支持途经点调整,提升出行服务体验。
阿里发布的Qwen-Image-2.0模型支持1K token长文本输入,能准确理解复杂指令,中文渲染效果显著提升。该模型在图像生成和编辑方面表现优异,适合日常使用。
上海AI实验室发布新基准RISEBench,评测图像编辑模型的理解能力。GPT-4o-Image仅完成28.9%的任务,开源模型BAGEL仅5.8%。新基准考察时间、因果、空间和逻辑推理,显示当前模型在复杂指令理解上存在显著不足。
本研究提出了一种新颖的结构化推理方法ARQs,显著提升了大型语言模型在复杂指令下的表现,尤其在多轮对话中成功率达到90.2%。
本研究提出了AIR框架,以解决大语言模型在处理复杂指令时的挑战。通过自动迭代生成符合实际场景的指令,构建了包含10K复杂指令的AIR-10K数据集,显著提升了模型性能。
本研究提出了一种新技术——约束反向翻译,旨在提高大型语言模型(LLMs)对复杂指令的遵循能力。研究表明,在CRAB数据集上进行后训练显著提升了多个LLMs的表现。
研究多模式指令导航(MINT),旨在使智能代理能够理解自然语言和图像。提出的移动VLA策略结合视觉语言模型与低层导航,成功应对复杂指令,如“我应该把这个放在哪里?”,在真实环境中表现出高成功率。
本研究系统分析了复杂指令理解的现状,回顾了177篇论文,识别出趋势与挑战,提供背景知识,促进不同研究方向的联系,并强调未来研究机会。
文章介绍了一种数据增强技术,通过分解、修改和重构复杂指令,保持其上下文和复杂性,同时引入变化。利用该方法开发的DeMoRecon数据集用于微调和评估大型语言模型,结果显示模型在指令追踪和常用基准上性能显著提升。
完成下面两步后,将自动完成登录并继续当前操作。