Databricks ·

TAO：利用测试时计算训练高效的大型语言模型，无需标记数据

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

我们提出了一种新方法，称为测试时自适应优化（TAO），该方法利用未标记数据和强化学习，在测试阶段提升大型语言模型的性能。TAO在文档问答和SQL生成等企业任务中优于传统微调，使开源模型Llama接近昂贵的专有模型质量。通过生成响应、评分和强化学习，TAO实现高效调优，降低推理成本。

🎯

关键要点

提出了一种新方法，称为测试时自适应优化（TAO），利用未标记数据和强化学习提升大型语言模型性能。
TAO在文档问答和SQL生成等企业任务中优于传统微调，使开源模型Llama接近昂贵的专有模型质量。
TAO通过生成响应、评分和强化学习实现高效调优，降低推理成本。
TAO不需要人类标注的数据，利用测试时计算和强化学习来优化模型。
TAO的四个阶段包括响应生成、响应评分、强化学习训练和持续改进。
TAO可以在不需要标签的情况下，提升模型质量，且推理成本保持不变。
TAO的默认实现适用于多种企业任务，具有高度灵活性和可定制性。
在多个基准测试中，TAO显著提高了Llama模型的性能，超越了传统微调的效果。

❓

延伸问答

什么是测试时自适应优化（TAO）？

测试时自适应优化（TAO）是一种利用未标记数据和强化学习在测试阶段提升大型语言模型性能的方法。

TAO如何在企业任务中表现优于传统微调？

TAO在文档问答和SQL生成等企业任务中，能够在没有标记数据的情况下，提升模型性能，接近昂贵的专有模型质量。

TAO的工作流程包括哪些阶段？

TAO的工作流程包括响应生成、响应评分、强化学习训练和持续改进四个阶段。

使用TAO的模型在推理成本上有什么变化？

使用TAO的模型在推理时保持与原始模型相同的低推理成本。

TAO如何利用未标记数据进行模型优化？

TAO通过生成响应并使用强化学习对这些响应进行评分，从而优化模型，而无需人类标注的数据。

TAO在多个基准测试中的表现如何？

在多个基准测试中，TAO显著提高了Llama模型的性能，超越了传统微调的效果。

🏷️

继续阅读

Frontier Tuning：教AI像您一样工作
微软在Build大会上推出了Frontier Tuning，这是一种通过强化学习使AI适应企业数据和流程的新方法。该系统在合规边界内运行，能够根据企业的独...
机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑
清华大学智能产业研究院推出了全新的机器人强化学习训练架构UniLab，打破了传统依赖GPU的训练模式。UniLab通过将仿真解耦到CPU侧，实现了更高的训...
微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
早期基准测试数据显示英伟达RTX SPARK N1X芯片性能相当于苹果M3 MAX
英伟达RTX SPARK N1X芯片的早期基准测试显示，其性能与苹果M3 MAX相当。N1X拥有20个核心，而M3 MAX则为14个核心。尽管M3 MAX...
流畅多人游戏背后的基础设施
实时多人游戏的流畅体验依赖于低延迟、专用服务器和内容分发网络。延迟超过200毫秒会显著影响用户体验。现代游戏采用云服务和混合架构以提升性能，同时确保安全性...
SK海力士将在5年内将内存晶圆产能翻番该公司预测内存短缺将持续到2030年
SK海力士董事长崔泰源表示，预计将在5年内将内存晶圆产能翻番，但内存短缺问题预计要到2030年才能缓解。由于人工智能行业对高带宽内存的需求激增，导致标准D...