小红花·文摘

关于管理不善的天才假说的小型练习（长链推理中的语言模型）

blank ·

每位开发者都应该了解的四种提示工程模式——以及为什么“画一只猫”能解释它们所有

The New Stack ·

大型语言模型一次能“读取”多少内容？了解上下文窗口

DEV Community ·

掌握Vertex AI中的提示设计：深入探讨

DEV Community ·

本研究探讨了大型语言模型在需求分类中的应用，分析了Bloom、Gemma和Llama模型的实验，发现提示设计和模型架构显著影响性能，而数据集的变化在不同任务中具有特殊影响。这为未来模型的开发与优化提供了参考。

生成大型语言模型在需求分类中的有效性研究

BriefGPT - AI 论文速递 ·

GPT-4.1 提示指南介绍了新模型在编码、指令遵循和长上下文处理方面的优化能力。开发者应采用清晰的提示设计和优化技巧，以提升模型性能。该模型支持复杂任务，具备更强的问题解决能力，并能有效利用工具调用。

GPT - 4.1提示指南：释放模型强大能力

dotNET跨平台 ·

本研究探讨了自动提示工程的优化，解决了手动提示工程的局限性。通过将提示优化形式化为最大化问题，建立了基础框架，系统性组织了优化方法，揭示了约束优化和面向代理的提示设计的潜力。

A Survey of Automatic Prompt Engineering: An Optimization Perspective

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的提示设计，旨在提升异步时间序列建模的性能，扩展异常检测和数据补充的应用。

针对异步时间序列建模的LAST SToP方法

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型（LLMs）的提示设计、模型深度和信息编码对人类认知建模的影响。结果表明，提示格式的变化对模型性能敏感，深度模型在语言建模方面表现更佳。此外，研究揭示了模型层的重要性及其上下文编码能力，并提出了新的评估模型表现的方法，为未来研究奠定基础。

表示重要吗？探索大型语言模型中的中间层

BriefGPT - AI 论文速递 ·

本研究评估了大型语言模型（LLMs）的生成输出质量，发现高质量输出与记忆文本比例相关。提出了新的评估框架和基准测试，分析了模型在多轮多语种指令执行中的能力及格式偏见问题，强调了提示设计的重要性，并探讨了长文本摘要中的忠实性与位置信息偏差。

ReFF：在多种任务中加强语言模型的格式忠实性

BriefGPT - AI 论文速递 ·

生成结构化的内容（JSON模式）是否会影响 LLM 性能？[译]

宝玉的分享 ·

本文探讨了大型语言模型（LLMs）的性能评估，发现模型规模越大，表现越好，但仍不及人类专家。研究强调提示设计对模型性能的影响，并提出改进模型真实性的方法。作者列出了设计高质量认知评估的指导方针，指出模型推理能力的局限性及其对训练数据的依赖，呼吁进一步研究人类与模型推理的差异。

评估语言模型行为的复制危机日益严峻？证据与解决方案

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型在知识获取中的提示设计策略，特别是意见基础的提示和反事实演示，显著提高了上下文的真实性。研究引入LMMBar基准，评估不同评估器的表现，发现提示设计对模型性能影响巨大。通过迭代提示方法，研究了模型回答的准确性和校准性，提出了增强模型真实性的新方法，为未来AI系统的开发提供了方向。

模型自动指导注意力：忠诚性与自动注意力引导的结合

BriefGPT - AI 论文速递 ·

本文研究了大型预训练语言模型中的语言知识及其行为，发现模型在不同语言中的表现存在差异。通过微调可以揭示隐藏的语言知识。评估结果表明，模型规模越大，表现越好，但仍存在偏见和错误。提出了一种新评估框架以量化偏见，并探讨了提示设计对模型性能的影响。此外，研究发现模型存在泄漏风险，可能泄露个人信息，并提出了自检测方法以改善检测性能。

喜欢黄色是否意味着开校车？语言模型中的语义泄露

BriefGPT - AI 论文速递 ·

本文综述了提示工程的不同方法和技术，探讨了其在大型语言模型中的应用及优势，分析了提示设计的局限性，强调了目标导向提示的重要性，并提出未来研究方向。通过对多项研究的回顾，本文为提示工程提供了结构化理解，特别是在临床自然语言处理等领域的应用潜力。

大型语言模型中不同自然语言处理任务的提示工程方法综述

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（LLMs）在社会科学任务中的注释能力，强调提示设计对模型的遵从性和准确性的重要性。通过多提示实验，发现提示的细微变化显著影响生成结果，开放模型在数据隐私和再现性方面表现更佳。研究建议使用多样化的提示以优化模型表现并减少社会偏见。

怎样选择提示很重要：利用大型语言模型提升社会科学文本注释

BriefGPT - AI 论文速递 ·

该研究提出了一种新框架，结合评估模型与提示性大语言模型，以提升对话系统的鲁棒性和多语言评估能力。通过多项基准测试，验证了提示性大语言模型的有效性，并探讨了其在个性化推荐和对话评估中的应用，强调了提示设计对模型性能的重要性。

LLM 作为计分员：输出顺序对对话评估的影响

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在自然语言处理中的提示设计与性能优化，提出了一种自适应提示设计方法，利用少量未标记数据实现零样本学习，并比较了不同模型在文本分类任务中的表现。研究结果表明，微调小型模型在某些任务上优于大型模型的少样本方法，强调了提示设计对模型性能提升的重要性。

通过提示完全循环模型进行通用上下文逼近

BriefGPT - AI 论文速递 ·

使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) [译]

宝玉的分享 ·

该研究构建了多个多语言和对话数据集，以提升大型语言模型（LLMs）的性能。结果显示，高质量数据集的微调显著改善了模型表现，尤其在机器翻译和对话系统中。研究还探讨了提示设计对聊天机器人的影响，强调了多语言模型在翻译中的潜力与局限性。

多语言聊天数据集：Tagengo

BriefGPT - AI 论文速递 ·