小红花·文摘 - 小红花技术领袖俱乐部

DeepSeek V4 Pro在精度方面胜过 GPT-5.5 Pro

DeepSeek V4 Pro在精度方面胜过 GPT-5.5 Pro

极道 ·

腾讯混元开源全新翻译模型Hy-MT2 ，上线小程序「腾讯Hy翻译」

量子位 ·

本文探讨了AI模型，特别是InstructGPT的意义。作者分析了该模型如何通过人类偏好和指令遵循能力提升性能，强调后训练阶段的重要性。InstructGPT通过模拟人类对话场景，优化了用户与AI的互动，使AI更有效地理解和满足用户需求。最终，作者认为AI的真正能力在于将知识转化为生产力，提升用户体验。

Instruct 的意义

Est's Blog ·

半壁华人！GPT Image 2团队曝光：无锡才俊带队，13人4个月封神

量子位 ·

Claude Opus 4.7发布，具备更好的视觉、记忆和指令遵循能力

Claude Opus 4.7发布，具备更好的视觉、记忆和指令遵循能力

The New Stack ·

🦞虾骑马！龙虾圈传了一周的匿名模型，原来是它｜附最新体验细节

🦞虾骑马！龙虾圈传了一周的匿名模型，原来是它｜附最新体验细节

爱范儿 ·

阿里千问上线全新一代大模型Qwen3.5-Plus

阿里千问上线全新一代大模型Qwen3.5-Plus

TechWeb 全站精华 ·

OpenAI发布了新图像生成模型GPT-Image-1.5，具备更好的指令遵循、精确编辑和细节保留，速度提升4倍。尽管在图像生成和编辑方面表现优异，但在理解世界能力上仍不及Nano Banana，用户反馈存在信息错误。

反超Nano Banana！OpenAI旗舰图像生成模型上线

量子位 ·

OpenAI的新GPT-5.1模型更快且更具对话性

OpenAI的新GPT-5.1模型更快且更具对话性

InfoQ ·

检查表优于奖励模型，用于对齐语言模型

检查表优于奖励模型，用于对齐语言模型

Apple Machine Learning Research ·

美团 M17 团队开源 Meeseeks 评测集：揭秘大模型的“听话”能力

美团 M17 团队开源 Meeseeks 评测集：揭秘大模型的“听话”能力

美团技术团队 ·

本文介绍了图像生成技术的发展，重点讨论了CLIP和BLIP及其变体的结构与训练方法。CLIP通过对比学习实现图像与文本的匹配，BLIP结合理解与生成能力，提升多模态任务表现。BLIP2引入Q-Former模块，优化视觉与语言对齐，InstructBLIP增强指令遵循能力，适应不同任务需求。

图文对比学习的发展史：从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP

结构之法算法之道 ·

GPT-5系统卡片

GPT-5系统卡片

OpenAI ·

字节跳动发布图像编辑模型SeedEdit 3.0！更强保持力，更高可用率

字节跳动发布图像编辑模型SeedEdit 3.0！更强保持力，更高可用率

实时互动网 ·

研究表明，复杂推理能力强的AI模型在遵循用户指令方面表现较差。上海人工智能实验室与香港中文大学的研究发现，推理能力与指令遵循之间存在权衡关系，模型越智能，越容易忽视具体指令。新基准MathIF用于评估模型的指令遵循程度，结果显示最佳模型仅能遵循50%的指令。

AI越聪明越不听话！新研究：最强推理模型指令遵循率仅50%

量子位 ·

本研究探讨了大型语言模型（LLMs）在遵循自然语言指令方面的不足，提出了MathIF基准以评估数学推理任务中的指令遵循能力。研究表明，提升推理能力与保持模型可控性之间存在矛盾，强调了对更具指令意识的推理模型的需求。

Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

BriefGPT - AI 论文速递 ·

本研究提出WebApp1K基准，评估大规模语言模型在测试驱动开发中的表现，强调模型理解功能、指令遵循和上下文学习的重要性。

将测试作为提示：面向大规模语言模型代码生成的测试驱动开发基准

BriefGPT - AI 论文速递 ·

本研究提出了一种多维约束框架，用于评估和提升大语言模型的指令遵循能力。该框架包括三种约束模式、四类约束和四个难度等级，生成了1,200个可验证的测试样本，结果显示模型在不同约束下的表现存在显著差异。使用该方法生成的数据显著提高了模型的指令遵循能力。

一个多维约束框架用于评估和提高大语言模型的指令遵循能力

BriefGPT - AI 论文速递 ·

OpenAI面向开发者推出GPT-4.1系列模型在编程/指令遵循/理解方面有重大改进

OpenAI面向开发者推出GPT-4.1系列模型在编程/指令遵循/理解方面有重大改进

蓝点网 ·

在API中介绍GPT-4.1

在API中介绍GPT-4.1

OpenAI ·