小红花·文摘

千问上线AI打车，一句话搞定选车、选地点、选时间

量子位 ·

阿里发布的Qwen-Image-2.0模型支持1K token长文本输入，能准确理解复杂指令，中文渲染效果显著提升。该模型在图像生成和编辑方面表现优异，适合日常使用。

中文版Nano Banana来了？Qwen-Image-2.0炸场：1K长文本硬吃，中文生图彻底不拧巴了

量子位 ·

上海AI实验室发布新基准RISEBench，评测图像编辑模型的理解能力。GPT-4o-Image仅完成28.9%的任务，开源模型BAGEL仅5.8%。新基准考察时间、因果、空间和逻辑推理，显示当前模型在复杂指令理解上存在显著不足。

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

量子位 ·

本研究提出了一种新颖的结构化推理方法ARQs，显著提升了大型语言模型在复杂指令下的表现，尤其在多轮对话中成功率达到90.2%。

注重推理查询：优化大型语言模型指令遵循的系统方法

BriefGPT - AI 论文速递 ·

本研究提出了AIR框架，以解决大语言模型在处理复杂指令时的挑战。通过自动迭代生成符合实际场景的指令，构建了包含10K复杂指令的AIR-10K数据集，显著提升了模型性能。

AIR: Generating Complex Instructions through Automated Iterative Refinement

BriefGPT - AI 论文速递 ·

本研究探讨了较小语言模型（SLMs）在指令演变中的优势，发现SLMs能够生成更复杂和多样的指令变体，具有更广泛的输出空间。同时，提出的IC-IFD指标有效提升了指令数据的评价。

Smaller Language Models Are More Suitable for Instruction Evolution

BriefGPT - AI 论文速递 ·

本研究提出了一种新技术——约束反向翻译，以提高大型语言模型（LLMs）对复杂指令的遵循能力。研究表明，在CRAB数据集上进行后训练后，多个LLMs的表现显著提升，约束反向翻译可作为有效的辅助训练目标。

Constraint Back-Translation Improves Large Language Models' Ability to Follow Complex Instructions

BriefGPT - AI 论文速递 ·

本文介绍了CELLO基准，用于评估大型语言模型（LLMs）理解复杂指令的能力。通过引入新数据集Conifer和顺序指令调整，提升了模型在多级指令遵循方面的表现。研究表明，使用AI生成的指令进行微调能有效提高模型性能，尤其在高复杂度任务中。此外，提出了FollowBench基准，揭示LLMs在遵循细粒度约束方面的不足，指明未来研究方向。

从复杂到简单：增强大型语言模型的多约束复合指令跟随能力

BriefGPT - AI 论文速递 ·