告别Retokenization Drift：通过OpenAI兼容API返回Token ID在代理强化学习中的重要性

vLLM Blog ·

告别Retokenization Drift：通过OpenAI兼容API返回Token ID在代理强化学习中的重要性

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

本文介绍了vLLM的OpenAI兼容API新特性，允许返回精确的token ID，解决了训练与推理之间的Retokenization Drift问题。通过设置"return_token_ids": true，用户可以获取输入和生成响应的token ID，从而提高代理强化学习的稳定性。Agent Lightning框架与此特性结合，简化了数据收集和优化过程，提升了系统的灵活性和可扩展性。

🎯

关键要点

vLLM的新特性允许返回精确的token ID，解决了训练与推理之间的Retokenization Drift问题。
通过设置'return_token_ids': true，用户可以获取输入和生成响应的token ID，提高代理强化学习的稳定性。
Agent Lightning框架与此特性结合，简化了数据收集和优化过程，提升了系统的灵活性和可扩展性。
Retokenization Drift导致训练不稳定，主要由非唯一的token分割、工具调用序列化和聊天模板差异引起。
新的OpenAI兼容API允许直接返回token ID，增强了代理与推理引擎的通信。
Agent Lightning提供了灵活的训练框架，支持与多种代理框架的无缝集成。
AGL的设计通过模块化组件和标准化数据协议，支持可扩展和高效的代理强化学习。
数据存储中心化设计简化了系统复杂性，支持不同组件的独立扩展和优化策略。

🏷️

继续阅读

【vLLM 学习】视觉语言
本文介绍了如何使用vLLM进行离线推理，特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置，以确保在不同GPU上有效运行。
OpenAI和谷歌的员工支持Anthropic对五角大楼的诉讼
致命自主武器在新环境中表现不可靠，无法准确识别目标，缺乏人类判断能力，因此决策过程中需有人类参与以确保安全。
我们是如何构建LangChain的GTM代理的
LangChain开发了一款GTM代理，自动化销售代表的研究和邮件草拟过程，提升潜在客户转化率，节省时间，并提供账户智能，帮助销售团队更有效地跟进和识别机会。
Cursor构建始终在线的代理以应对开发者任务的繁琐
Cursor团队的安全审查自动化在每次推送到主分支时触发，能有效发现问题，避免阻塞PR，并将高风险发现发送到Slack，已发现多个漏洞和关键错误。
AI编码代理可以编写代码，Crafting希望帮助他们交付
Crafting CEO Sumeet Vaidya表示，六到九个月前，大家关注AI代理的快速代码生成，但他和联合创始人意识到，工程组织在扩展时面临协调和资源使用等挑战。
主动防御：为API引入有状态漏洞扫描器
Cloudflare推出了Web和API漏洞扫描器的测试版，专注于检测API中的BOLA漏洞。传统防御无法有效应对API逻辑缺陷，因此需要主动检测。该扫描...

告别Retokenization Drift：通过OpenAI兼容API返回Token ID在代理强化学习中的重要性

内容提要

关键要点

标签

继续阅读