小红花·文摘

本研究提出了自然语言模型（NatureLM），有效解决了科学领域模型训练的独立性和跨领域整合不足的问题。该模型在药物发现和新材料设计等应用中表现优异，显著提升了性能。

自然语言模型：解读自然语言以促进科学发现

BriefGPT - AI 论文速递 ·

英国政府官网GOV.UK与Kin + Carta及Google Cloud合作，升级搜索功能，利用自然语言模型提高搜索结果的准确性，用户点击相关结果增加14%。此举改善了政府信息的获取和公众服务。

GOV.UK在Google Cloud的帮助下升级搜索功能

The Keyword ·

本文研究了自然语言模型（如T5、BART、GPT-2、GPT-3等）的知识校准，提出了提高模型置信度和准确性的有效方法。实验结果表明，校准显著提升了模型表现，并探讨了不同模型在概率估计中的一致性问题，提出了新框架以改善输出评估的可信度。

语言模型输出概率的校准性研究

BriefGPT - AI 论文速递 ·

本文介绍了ToolLLM框架，提升了自然语言模型的规划与推理能力。ToolLLaMA在复杂指令执行上表现优异，ToolEyes系统评估了LLMs的工具学习能力，发现模型在工具选择上存在局限。RoTBench和RoTTuning策略增强了LLMs的鲁棒性，研究探讨了工具学习的益处与挑战，并提出标准化教学方法以提高LLMs的效率与准确性。

为大型语言模型学习演变工具

BriefGPT - AI 论文速递 ·

本文探讨了自然语言模型在自动程序修复中的应用，提出了RAP-Gen框架，通过检索相关修复模式提高修复效率。研究表明，ChatGPT在代码生成和修复方面表现优异，但在视觉图形处理上存在局限。此外，介绍了MutaBot工具用于测试聊天机器人，以及RepairBench排行榜以标准化评估程序修复模型，推动该领域发展。

基于对话测试套件的程序修复潜力探索

BriefGPT - AI 论文速递 ·

这篇文章介绍了一种名为“Keypoint Action Tokens”（KAT）的框架，它利用现成的基于文本的Transformers模型，进行少量样本的视觉模仿学习。KAT框架在将视觉关键点观察转换成动作轨迹方面表现出色，性能与或优于现有技术。KAT为自然语言模型在任务中的重新应用提供了新途径。

大模型不只是语言能力，还是对广阔世界的理解

极道 ·

通过引入ToolLLM，展示了它在增强自然语言模型的规划和推理能力方面的影响。使用ChatGPT创建指导数据集ToolBench，并使用深度优先搜索决策树扩展搜索空间，获取有效的解决方案路径。通过微调后得到ToolLLaMA，评估器ToolEval显示其在执行复杂指令和推广到未见过的API方面表现出卓越能力。设计了神经API检索器为每个指令推荐适当的API，省去了手动选择API的步骤。

AnyTool：自省式、分层代理大规模 API 调用

BriefGPT - AI 论文速递 ·

ToolLLM是一个通用工具使用框架，可以增强自然语言模型的规划和推理能力。它使用ChatGPT创建ToolBench数据集，并使用DFSDT扩展搜索空间，以获取解决方案路径。通过微调LLaMA得到ToolLLaMA，并使用ToolEval评估其在执行复杂指令和推广到未见过的API方面的能力。此外，还设计了一个神经API检索器，简化了选择API的步骤。

RE-GAINS & EnCHANT: 智能工具操作系统以提升查询响应

BriefGPT - AI 论文速递 ·

本文研究了无监督原始数据改善自然语言模型预训练的方法，提出了三种替代BERT的预训练目标，并介绍了自监督预训练任务与下游应用结构对齐的方法，展示了在多个任务上的性能提升。

SpacTor-T5: 使用跨度破坏和替换标记检测预训练 T5 模型

BriefGPT - AI 论文速递 ·