小红花·文摘

从未升温的投影仪 — 稳固的融合

Lifelog — A Mythology-Driven Devlog ·

Meta的研究揭示了强化学习（RL）训练中参数更新稀疏的现象，并提出了三种理论来解释其机制。尽管RL训练显著提升性能，但仅有少量参数被修改，主要由于KL锚定、模型几何和精度过滤等因素。研究表明，RL与监督微调（SFT）在参数优化区域存在显著差异，为RL训练算法设计提供了新思路。

研究可能导致大型语言模型在复杂推理方面表现更佳

MIT News - Artificial intelligence ·

本研究提出了一种名为KO的神经网络优化器，基于动力学理论和偏微分方程模拟。KO通过粒子系统演化重新构思参数更新，增强参数多样性，有效减缓参数凝聚现象。实验结果显示，KO在图像和文本分类任务中的表现优于传统优化器，如Adam和SGD，准确率更高。

KO：基于动力学的神经网络优化器与偏微分方程模拟方法

BriefGPT - AI 论文速递 ·

本研究提出了InfiniteICL框架，解决了大型语言模型在超长上下文中窗口有限的问题。该方法通过将临时知识转化为持久参数更新，显著降低了内存使用，并提升了模型在不同输入长度下的表现。实验表明，该方法在复杂真实场景中有效减少了90%的上下文长度。

Infinite Context Learning: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation

BriefGPT - AI 论文速递 ·

本研究提出了一种稀疏训练策略，旨在解决多任务学习中的梯度冲突问题。通过部分参数更新，稀疏训练有效减轻了梯度冲突，提高了模型性能，并可与现有技术结合使用。

Active Gradient Conflict Mitigation in Multi-Task Learning: A Sparse Training Perspective

BriefGPT - AI 论文速递 ·

该论文介绍了一种名为指示性解码的方法，通过使用噪声指示来改进指导性调整的语言模型。研究了不同类型的噪声指示，包括随机单词插入语义噪声和引发有偏离性响应的指示。该方法在不需要额外参数更新的情况下，在各种指导性调整的模型和任务中实现了相当大的性能提升。

本文介绍了基于模型的元学习中的Learning to Learn优化策略和Meta-Learner LSTM。Meta-Learner LSTM使用单元状态表示Learner参数的更新，既能发现一个良好的Learner初始化参数，又能将Learner的参数更新到一个给定的小训练集，以完成一些新任务。Meta-Learner LSTM和MAML的区别在于信息交流的时间点和元学习器的更新方式。Meta-Learner LSTM适用于LSTM结构的元学习器，但基学习器可以适用于任意模型结构。在miniImageNet上进行分类，Meta-Learner LSTM取得了较好的结果。

了解基于模型的元学习：Learning to Learn优化策略和Meta-Learner LSTM

华为云官方博客 ·

从未升温的投影仪 — 稳固的融合

这些大神在Meta的论文看一篇少一篇了

研究可能导致大型语言模型在复杂推理方面表现更佳

KO：基于动力学的神经网络优化器与偏微分方程模拟方法

Infinite Context Learning: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation

Active Gradient Conflict Mitigation in Multi-Task Learning: A Sparse Training Perspective

扭曲、分散、解码：调校模型能够从嘈杂的指令中优化应答

了解基于模型的元学习：Learning to Learn优化策略和Meta-Learner LSTM