小红花·文摘

OpenClaw记忆替换Node.js Postgres后降低幻觉但提高延迟

极道 ·

AI的上下文工程：它是什么以及如何构建

Redis Blog ·

为什么大模型的损失函数是交叉熵

木鸟杂记 ·

本文探讨了利用多模态大模型进行发票数据结构化提取的实践经验，旨在实现模型稳定输出可用的JSON格式数据。传统OCR方法在复杂版式下效果不佳，而多模态模型如Gemini和GPT-4o能够有效理解图像和指令。文章介绍了微调和少样本提示的方法，强调数据格式和模型输出准确性的重要性，建议在训练中加入模糊样本，并在系统提示中强调格式要求，以提高模型的可靠性。

多模态数据提取：微调与少样本提示

路边的阿不 ·

构建安全的AI代理

Vercel News ·

本研究提出了一种新的信心校准框架，解决视觉语言模型（VLMs）口头信心与响应正确性之间的校准问题。通过引入带有高斯噪声的扰动数据集，显著提高了模型的校准能力，增强了用户对模型输出的信任度。

Object-Level Verbal Confidence Calibration in Vision-Language Models Based on Semantic Perturbation

BriefGPT - AI 论文速递 ·

Prompt工程技术通过设计输入文本来引导大语言模型生成高质量输出，优化人机交互，广泛应用于客服和编程助手等领域。案例中使用DeepSeek V3模型API，介绍了样本提示、思维链提示和链式提示三种控制模型输出的方法，以提升任务完成质量。

DeepSeek大模型Prompt工程深度实践（开发者空间Notebook版）

华为云官方博客 ·

Google 官方提示工程 (Prompt Engineering)白皮书

宝玉的分享 ·

本文介绍了如何通过DeepSeek V3模型API调节温度和top_p参数，以控制模型输出。温度参数影响回答的随机性，低值稳定高值创意；top_p参数控制文本多样性，低值精准高值灵活。两者结合可实现不同场景的输出效果。

开发者必备！基于开发者空间的 DeepSeek 模型 API 调用及参数调试攻略

华为云官方博客 ·

本研究提出了一种名为SPEX的模型无关交互归因算法，旨在解决现有解释方法在处理大型输入时的局限性。SPEX通过稀疏傅里叶变换高效识别重要特征交互，实验结果显示其在重建模型输出方面比边际归因方法提高了20%。

SPEX: Scaling Explanations of Feature Interactions at Scale

BriefGPT - AI 论文速递 ·

解决AI工作流中的向量维度不匹配问题

DEV Community ·

本研究提出了一种通用方法，通过非线性特征学习和跨层特征聚合，检测大型语言模型（LLM）内部知识的准确性和可用性。结果表明，该方法在识别虚假信息和不实内容方面表现优异，并能有效引导模型输出新概念。

Aggregate and Conquer: Detecting and Steering Concepts of Large Language Models by Combining Nonlinear Predictors Across Multiple Layers

BriefGPT - AI 论文速递 ·

本研究分析了采样基础搜索的缺陷，提出通过扩展简约实现来提升推理能力和验证精度。主要发现包括响应比较可能导致错误信号，不同模型输出适用于不同上下文，以及前沿模型在验证能力方面的不足。

OpenClaw记忆替换Node.js Postgres后降低幻觉但提高延迟

AI的上下文工程：它是什么以及如何构建

为什么大模型的损失函数是交叉熵

多模态数据提取：微调与少样本提示

构建安全的AI代理

Object-Level Verbal Confidence Calibration in Vision-Language Models Based on Semantic Perturbation

DeepSeek大模型Prompt工程深度实践（开发者空间Notebook版）

Google 官方提示工程 (Prompt Engineering)白皮书

开发者必备！基于开发者空间的 DeepSeek 模型 API 调用及参数调试攻略

SPEX: Scaling Explanations of Feature Interactions at Scale

解决AI工作流中的向量维度不匹配问题

Aggregate and Conquer: Detecting and Steering Concepts of Large Language Models by Combining Nonlinear Predictors Across Multiple Layers

Sampling, Review, and Expansion: Achieving Effective Inference-Time Search through Extended Validation

The Importance of Error Diversity: An Error-Resilient Ensemble Method for Unsupervised Dependency Parsing

Azure OpenAI C# 的一些经验分享

Can We Reverse In-Context Knowledge Edits?

第30天：

通过基于规则的奖励提升模型安全行为

SemEval-2024 Shared Task 6: SHROOM，一个关于幻觉和相关可观察溢出错误的共享任务

OpenAI完整提示工程指南要点