小红花·文摘 - 小红花技术领袖俱乐部

本文探讨了长上下文模型的工程挑战与解决方案，包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加，模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码，并结合线性注意力和稀疏注意力优化计算效率。在训练方面，采用短预训练与长继续预训练相结合的策略，推理时利用前缀缓存和KV压缩等技术提高效率。

【大模型基础设施工程】16：长上下文工程

土法炼钢兴趣小组的博客 ·

DiT-Air：重新审视文本到图像生成中扩散模型架构设计的效率

DiT-Air：重新审视文本到图像生成中扩散模型架构设计的效率

Apple Machine Learning Research ·

CLIP-UP：一种简单高效的稀疏上循环Mixture-of-Experts CLIP训练方案

CLIP-UP：一种简单高效的稀疏上循环Mixture-of-Experts CLIP训练方案

Apple Machine Learning Research ·

本研究综述了深度学习在复杂语音谱图分析中的应用，介绍了复杂谱图特征、深度神经网络架构，以及训练策略和损失函数，展示了在相位恢复、语音增强和分离等方面的显著进展。

A Review of Deep Learning Research on Complex Speech Spectrograms

BriefGPT - AI 论文速递 ·

本研究提出了ScaleTrack框架，旨在解决自动化图形用户界面（GUI）代理在训练中面临的数据不足和历史行为回溯问题。通过整合不同来源的GUI样本和新的训练策略，ScaleTrack显著提升了代理的性能。

ScaleTrack: Automated GUI Agents for Scaling and Backtracking

BriefGPT - AI 论文速递 ·

LMM-R1框架通过创新的两阶段训练策略，显著提升小型多模态模型的数学推理能力。第一阶段增强基础推理，第二阶段实现多模态泛化，减少对高质量数据的依赖。实验结果表明，该框架在推理密集型任务中表现优异，展现了多模态模型的应用潜力。

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

量子位 ·

本研究提出了Soundwave，一种高效的训练策略和新架构，旨在解决语音大型语言模型在语音与文本之间的表示空间差距和序列长度不一致的问题。Soundwave在语音翻译和AIR-Bench任务中表现优异，仅使用五十分之一的训练数据，仍能保持智能对话的表现。

Soundwave: Less is More for Speech-Text Alignment in Large Language Models

BriefGPT - AI 论文速递 ·

如何构建和优化推理型大型语言模型？DeepSeek R1的启示

如何构建和优化推理型大型语言模型？DeepSeek R1的启示

我爱自然语言处理 ·

本研究介绍了Janus-Pro模型，旨在缩小多模态理解与文本到图像生成之间的能力差距。通过优化训练策略、扩大训练数据和模型规模，Janus-Pro在多模态理解和指令跟随能力上取得显著进展，增强了文本到图像生成的稳定性。

Janus-Pro: Unified Multimodal Understanding and Generation through Data and Model Scaling

BriefGPT - AI 论文速递 ·

本研究提出LAVCap框架，旨在解决自动音频字幕生成中音频与视觉数据融合不足的问题。通过优化训练策略和关注模块，LAVCap在AudioCaps数据集上表现出色，具有重要的应用潜力。

LAVCap Method for Audio-Video Captioning Based on Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了视觉语言模型在复杂视觉推理中的挑战，特别是文本与视觉数据之间的差距。通过新基准DrivingVQA评估视觉链思维推理能力，发现现有模型在零样本设置下表现不佳，并提出基于相关实体的训练策略，提升推理效果可达7%。

Driving Visual Question Answering: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios

BriefGPT - AI 论文速递 ·

揭示局限性：CLIP 模型对真实世界中假相关的依赖

揭示局限性：CLIP 模型对真实世界中假相关的依赖

机器之心 ·

本研究探讨了图神经网络在标签噪声下的鲁棒性，揭示了模型在特定条件下的失败模式，并提出了两种训练策略以增强鲁棒性，提升噪声环境中的表现。

Robustness in Graph Classification: Failure Modes, Causes, and Anti-Noise Loss in Graph Neural Networks

BriefGPT - AI 论文速递 ·

本研究提出了一种创新的深度强化学习训练策略，通过动作映射和可行性模型提高样本效率和收敛速度，显著提升了约束环境下连续动作空间的训练性能。

Action Mapping for Reinforcement Learning in Constrained Continuous Environments

BriefGPT - AI 论文速递 ·

TensorOpera AI 发布 Fox-1：系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1

TensorOpera AI 发布 Fox-1：系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1

实时互动网 ·

本研究提出了一种有效的训练策略，通过将大型语言模型的排名知识转移至小型模型BERT，显著提升了商业搜索引擎的性能。

将大型语言模型蒸馏为BERT以用于网络搜索排名的最佳实践

BriefGPT - AI 论文速递 ·

本研究提出了一种统一的训练策略，解决了听觉、视觉和视听语音识别的独立性问题。通过贪婪伪标签方法，利用未标记样本提升模型性能，达到了最新技术水平。

统一语音识别：一种用于听觉、视觉和视听输入的单一模型

BriefGPT - AI 论文速递 ·

本研究提出了一种新的渐进式LoRA训练策略CopRA，旨在解决标准LoRA训练中模型快速收敛于局部最优的问题。实验结果表明，CopRA在模型合并和剪枝任务中表现优异。

CopRA：渐进式LoRA训练策略

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的训练策略，通过将自编码器数量减少到一组连续层，显著提高了大语言模型的训练效率。在Pythia 160M模型上，训练速度提升可达6倍，同时重建质量和下游任务性能保持不变。

通过层组高效训练大语言模型的稀疏自编码器

BriefGPT - AI 论文速递 ·

本研究分析了高清视频生成的挑战，特别是文本到视频、图像到视频和视频到视频的生成。通过研究SORA等模型，文章探讨了模型架构的演变、新的数据扩展和训练策略，发现这些模型在高分辨率生成、自然运动和视觉语言对齐方面取得了重要进展，对内容创作和世界建模有潜在影响。

视频生成的曙光：基于SORA模型的初步探索

BriefGPT - AI 论文速递 ·