小红花·文摘

本文讨论了卷积神经网络（CNN）的架构和训练方法，包括归一化层、正则化（如Dropout）、激活函数（如ReLU和GELU）、残差网络（ResNet）和权重初始化（Kaiming初始化）。还介绍了数据预处理、数据增强、迁移学习策略及超参数优化步骤，强调系统调试的重要性，指出大多数失败源于基本设置问题，而非超参数选择。

CS231n 讲义 VI：卷积神经网络架构与训练

Louis Aeilot's Blog ·

肌肉爆发力是预测寿命的重要指标，优于单纯肌肉力量。研究表明，爆发力差的人死亡风险高达6倍。普通人应训练爆发力，以应对日常活动和意外。科学训练可延缓爆发力衰退，训练方法包括快速伸缩复合训练和负重爆发力训练。

别只练力量和心肺，人生下半场拼的是肌肉爆发力

少数派 ·

OpenAI推出了GPT-5-Thinking的新训练方法“忏悔训练”，使AI在回答后生成“忏悔报告”，承认错误。实验表明，模型在11个测试场景中有超过50%的概率坦白错误，训练后诚实性显著提升，旨在减少撒谎行为并增强遵循指令的能力。

GPT-5-Thinking新训练方法公开：让AI学会忏悔

量子位 ·

OpenAI研究探讨大型语言模型幻觉的成因及潜在解决方案

InfoQ ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

机器之心 ·

数据集、文档与重复：不平等数据质量的实用性

Apple Machine Learning Research ·

检测和减少AI模型中的阴谋行为

OpenAI ·

与Tim的问答 — 我正在服用的补充剂、奥斯汀与旧金山、心理表现训练、当前常用的AI工具、手术恢复、间歇性禁食等 (#826)

The Blog of Author Tim Ferriss ·

本文探讨了EmbodiedOneVision模型，该模型通过交错的视觉-文本-动作预训练，实现灵活的多模态推理与动作生成。EO-1采用统一架构，结合离散自回归解码与连续流匹配，提升机器人控制的泛化能力，并强调多模态数据的重要性，提出新的训练方法以优化推理与执行的整合。

EmbodiedOneVision——单个模型中集成离散自回归解码与连续流匹配去噪：Qwen 2.5 VL加两个MLP头完成具身推理、动作生成

结构之法算法之道 ·

MIT与新加坡国立大学联合推出MEM1框架，提升AI智能体的长程推理效率，速度提高3.5倍，显存减少至1/4。该框架通过强化学习使智能体自主整合记忆与推理，有效解决信息过载问题，展现出强大的泛化能力。

突破Agent长程推理效率瓶颈！MIT&NUS联合推出强化学习新训练方法

量子位 ·

Kimi K2官方技术报告揭示其训练方法，使用384个专家和NVIDIA H800 GPU集群，强调“用自己的话再讲一遍”以提升模型理解。Kimi K2在代码和数学推理等任务中表现优异，超越DeepSeek，成为全球最强开源模型。核心创新包括MuonClip优化器和大规模数据合成，确保高效训练和性能提升。

Kimi K2官方技术报告出炉：采用384个专家，训练不靠刷题靠“用自己的话再讲一遍”

量子位 ·

在研讨会上，演讲者探讨了大型语言模型（LLM）与合成数据的关系，强调合成数据在提升模型鲁棒性和数据效率方面的重要性。他指出，尽管LLM在文本生成上表现优异，但在推理和学习能力上仍有局限。通过合成数据和新训练方法，可以更有效利用现有数据，提升模型在特定领域的适应性和性能。

第一节：大型语言模型的扩展与合成数据的作用

Josherich的博客 ·

AI在处理复杂推理问题时，尤其是图像推理方面存在困难。不同模型对大立方体规格的理解差异导致答案不一致。网友指出这是视觉理解的问题，人类也会感到困惑。因此，AI需要更科学的训练方法。

AI遭遇灵魂拷问！这道题所有模型集体翻车，网友：我也不会啊

量子位 ·

本文提出了一种新的训练方法J4R，旨在提升大语言模型（LLM）在复杂推理中的评估能力。通过等效初始状态组相对策略优化算法（EIS-GRPO），J4R在多样化推理设置中表现优异，超越了现有模型，显示出显著的性能提升和应用潜力。

J4R: Learning to Judge through Equivalent Initial State Group Relative Preference Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种结合双向思维链与奖励机制的新训练方法，以提升大型语言模型在中国非物质文化遗产领域的问答能力。实验结果表明，该方法在准确性和评估指标上显著优于现有方法，为未来模型训练提供了新思路。

A Method for Enhancing the Question-Answering Capabilities of Large Language Models by Fusing Bidirectional Chains of Thought and Reward Mechanisms

BriefGPT - AI 论文速递 ·

本研究提出了一个统一框架，解决了连续生成模型的训练与采样方法的统一性问题，并在ImageNet数据集上显著提升了FID值，验证了其有效性。

CS231n 讲义 VI：卷积神经网络架构与训练

别只练力量和心肺，人生下半场拼的是肌肉爆发力

GPT-5-Thinking新训练方法公开：让AI学会忏悔

OpenAI研究探讨大型语言模型幻觉的成因及潜在解决方案

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

数据集、文档与重复：不平等数据质量的实用性

检测和减少AI模型中的阴谋行为

与Tim的问答 — 我正在服用的补充剂、奥斯汀与旧金山、心理表现训练、当前常用的AI工具、手术恢复、间歇性禁食等 (#826)

EmbodiedOneVision——单个模型中集成离散自回归解码与连续流匹配去噪：Qwen 2.5 VL加两个MLP头完成具身推理、动作生成

突破Agent长程推理效率瓶颈！MIT&NUS联合推出强化学习新训练方法

Kimi K2官方技术报告出炉：采用384个专家，训练不靠刷题靠“用自己的话再讲一遍”

第一节：大型语言模型的扩展与合成数据的作用

AI遭遇灵魂拷问！这道题所有模型集体翻车，网友：我也不会啊

J4R: Learning to Judge through Equivalent Initial State Group Relative Preference Optimization

A Method for Enhancing the Question-Answering Capabilities of Large Language Models by Fusing Bidirectional Chains of Thought and Reward Mechanisms

统一连续生成模型

大型语言模型在对称性测试中失败：新训练方法提升关系推理能力

Revisiting the Training Quality of Diffusion Autoencoders in Image Reconstruction

重新思考基于LLM的推荐：一种基于查询生成的无训练方法

Breaking Data Barriers: Building GUI Agents through Task Generalization