小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神

GPT Image 2的底层架构已彻底重构,研究负责人陈博远称其为“通用模型”。团队仅13人,快速取得显著进展,新模型在指令遵循和空间布局方面表现出色,能够精准生成复杂图像。团队成员背景多样,涵盖计算机视觉和机器学习等领域,OpenAI持续吸引跨界人才,推动技术创新。

半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神

量子位
量子位 · 2026-04-23T08:04:09Z
Claude Opus 4.7发布,具备更好的视觉、记忆和指令遵循能力

Anthropic发布了Claude Opus 4.7,提升了指令遵循、视觉、创造力和记忆能力。新模型在复杂任务上表现更佳,但安全性略有下降,用户需调整提示以适应变化。Opus 4.7在金融分析等领域表现出色,并具备自动检测高风险请求的安全措施。

Claude Opus 4.7发布,具备更好的视觉、记忆和指令遵循能力

The New Stack
The New Stack · 2026-04-16T17:56:33Z
🦞虾骑马!龙虾圈传了一周的匿名模型,原来是它|附最新体验细节

龙虾圈推出的新模型GLM-5-Turbo专为复杂任务优化,解决了通用模型在多步骤执行中的问题。该模型在工具调用、指令遵循和任务持续性方面表现优异,并在ZClawBench评测中获得国产模型第一。GLM-5-Turbo适合个人和企业,支持灵活订阅,提升AI应用效率。

🦞虾骑马!龙虾圈传了一周的匿名模型,原来是它|附最新体验细节

爱范儿
爱范儿 · 2026-03-16T08:21:29Z
阿里千问上线全新一代大模型Qwen3.5-Plus

阿里发布了新一代大模型千问Qwen3.5-Plus,具备多模态升级,性能超越GPT-5.2和Claude 4.5,尤其在知识推理和指令遵循方面表现卓越,具备高效推理和自主操作设备的能力。

阿里千问上线全新一代大模型Qwen3.5-Plus

TechWeb 全站精华
TechWeb 全站精华 · 2026-02-16T09:50:52Z

OpenAI发布了新图像生成模型GPT-Image-1.5,具备更好的指令遵循、精确编辑和细节保留,速度提升4倍。尽管在图像生成和编辑方面表现优异,但在理解世界能力上仍不及Nano Banana,用户反馈存在信息错误。

反超Nano Banana!OpenAI旗舰图像生成模型上线

量子位
量子位 · 2025-12-17T02:25:43Z
OpenAI的新GPT-5.1模型更快且更具对话性

OpenAI发布了GPT-5.1模型,提升了指令遵循和推理速度,并新增聊天风格选项,允许用户自定义响应。尽管早期移除旧模型引发争议,OpenAI承诺提供过渡期以便用户适应。新Codex-Max模型在编程任务中表现出色,API访问即将推出。

OpenAI的新GPT-5.1模型更快且更具对话性

InfoQ
InfoQ · 2025-12-09T14:00:00Z
检查表优于奖励模型,用于对齐语言模型

本文提出了一种名为“检查表反馈强化学习”(RLCF)的方法,以提高大型语言模型(LLMs)对用户指令的遵循能力。通过从指令中提取检查表并评估响应的满足程度,RLCF在多个基准测试中表现优异,显著提升了模型的指令遵循性能,表明检查表反馈是改善语言模型支持多样化需求的重要工具。

检查表优于奖励模型,用于对齐语言模型

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-29T00:00:00Z
美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的“听话”能力

近期,AI技术迅速发展,但模型在指令遵循方面表现不一。美团M17团队推出Meeseeks评测基准,专注于评估模型的指令遵循能力。评测结果显示,o3-mini系列模型表现优异,Claude系列紧随其后,而DeepSeek和GPT-4o排名较低。Meeseeks通过细化评测框架和多轮纠错模式,揭示了模型的自我纠错潜力,为未来优化提供了方向。

美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的“听话”能力

美团技术团队
美团技术团队 · 2025-08-29T00:00:00Z

本文介绍了图像生成技术的发展,重点讨论了CLIP和BLIP及其变体的结构与训练方法。CLIP通过对比学习实现图像与文本的匹配,BLIP结合理解与生成能力,提升多模态任务表现。BLIP2引入Q-Former模块,优化视觉与语言对齐,InstructBLIP增强指令遵循能力,适应不同任务需求。

图文对比学习的发展史:从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP

结构之法 算法之道
结构之法 算法之道 · 2025-08-22T15:13:18Z
GPT-5系统卡片

GPT-5是一个统一系统,能够实时选择快速回答模型和深度推理模型。它在减少幻觉、提高指令遵循和安全性方面取得显著进展,尤其在写作、编程和健康领域表现突出。

GPT-5系统卡片

OpenAI
OpenAI · 2025-08-07T00:00:00Z
字节跳动发布图像编辑模型SeedEdit 3.0!更强保持力,更高可用率

图像编辑模型SeedEdit 3.0基于Seedream 3.0,提升了图像主体、背景和细节的保持能力,尤其在人像编辑和背景更改方面表现突出。该模型支持生成4K图像,指令遵循和可用性显著提高,用户满意度高。团队采用增强型数据策略和多阶段训练,提升了模型的理解能力。尽管表现优秀,指令遵循仍需进一步优化。

字节跳动发布图像编辑模型SeedEdit 3.0!更强保持力,更高可用率

实时互动网
实时互动网 · 2025-06-06T06:25:50Z

研究表明,复杂推理能力强的AI模型在遵循用户指令方面表现较差。上海人工智能实验室与香港中文大学的研究发现,推理能力与指令遵循之间存在权衡关系,模型越智能,越容易忽视具体指令。新基准MathIF用于评估模型的指令遵循程度,结果显示最佳模型仅能遵循50%的指令。

AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%

量子位
量子位 · 2025-05-24T04:59:14Z

本研究探讨了大型语言模型(LLMs)在遵循自然语言指令方面的不足,提出了MathIF基准以评估数学推理任务中的指令遵循能力。研究表明,提升推理能力与保持模型可控性之间存在矛盾,强调了对更具指令意识的推理模型的需求。

Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出WebApp1K基准,评估大规模语言模型在测试驱动开发中的表现,强调模型理解功能、指令遵循和上下文学习的重要性。

将测试作为提示:面向大规模语言模型代码生成的测试驱动开发基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了一种多维约束框架,用于评估和提升大语言模型的指令遵循能力。该框架包括三种约束模式、四类约束和四个难度等级,生成了1,200个可验证的测试样本,结果显示模型在不同约束下的表现存在显著差异。使用该方法生成的数据显著提高了模型的指令遵循能力。

一个多维约束框架用于评估和提高大语言模型的指令遵循能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
OpenAI面向开发者推出GPT-4.1系列模型 在编程/指令遵循/理解方面有重大改进

OpenAI推出了GPT-4.1系列模型,包括常规版、mini版和nano版,专为API调用设计,价格更低。新模型在编程和指令遵循方面有显著改进,支持处理更长内容,性能优于前代。

OpenAI面向开发者推出GPT-4.1系列模型 在编程/指令遵循/理解方面有重大改进

蓝点网
蓝点网 · 2025-04-15T01:59:43Z
在API中介绍GPT-4.1

GPT-4.1系列模型发布,显著提升了编码、指令遵循和长文本理解能力,支持高达100万标记的上下文,性能更优,成本更低。该模型在多个基准测试中表现出色,特别是在编码任务和多轮对话中,提升了指令遵循的可靠性,适用于智能系统和复杂任务的开发。

在API中介绍GPT-4.1

OpenAI
OpenAI · 2025-04-14T10:00:00Z
大型语言模型是否在内部知道何时遵循指令?

指令遵循对大型语言模型(LLMs)的AI代理至关重要,但LLMs常常难以遵循简单指令。研究发现,LLMs的内部状态与指令遵循的成功率相关,提出了“内部知识”概念。分析表明,输入嵌入空间中的“指令遵循维度”可以预测响应是否符合指令,调整该维度可提高遵循成功率而不影响响应质量。这项研究为LLMs的指令遵循提供了新的见解。

大型语言模型是否在内部知道何时遵循指令?

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-10T00:00:00Z
大型语言模型在指令遵循中是否能够有效估计不确定性?

大型语言模型(LLMs)在遵循用户指令方面存在显著局限性,影响其在高风险应用中的可靠性。我们首次系统评估了LLMs在指令遵循中的不确定性估计能力,发现现有方法在处理细微错误时表现不佳,尽管内部模型状态有所改善,但仍无法应对复杂场景。这些发现为理解LLMs的局限性和不确定性估计提供了重要见解。

大型语言模型在指令遵循中是否能够有效估计不确定性?

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-08T00:00:00Z

本研究提出了一种思维干预范式,通过插入或修订思维标记,有效提升大型语言模型的推理能力和指令遵循。实验结果表明,该方法在多个任务中优于传统提示。

Effectively Controlling Reasoning Models through Thinking Intervention

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码