小红花·文摘

在线教程丨 David Baker 团队开源 RFdiffusion3，实现全原子蛋白质设计的生成式突破

HyperAI超神经 ·

在线教程丨David Baker团队开源RFdiffusion3，实现全原子蛋白质设计的生成式突破

HyperAI超神经 ·

CommVQ：用于KV缓存压缩的交换向量量化

Apple Machine Learning Research ·

本研究提出自适应自我恢复推理（ASRR）框架，旨在解决大型推理模型在简单任务中因冗余推理而产生的计算开销问题。ASRR通过抑制不必要的推理，实现隐式恢复，显著提高推理效率和安全性。实验结果表明，ASRR在多个基准测试中有效减少推理预算，提升效率，且性能损失微小。

When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning

BriefGPT - AI 论文速递 ·

本研究提出自我调节微调（SBT）框架，旨在解决大型推理模型的过度思考问题。该方法通过内部调节推理过程，减少冗余推理，降低计算开销，令牌消耗减少高达60%，同时保持准确性。

Let Large Language Models Break Free from Overthinking via Self-Regulated Optimization

BriefGPT - AI 论文速递 ·

本研究提出LLaCTR方法，解决了现有LLM在大规模实例中点击率预测的计算开销问题。通过自监督微调提取轻量级语义知识，LLaCTR在有效性和效率上优于现有方法，展现出良好的应用潜力。

The Importance of Domain: A Lightweight LLM-Enhanced Click-Through Rate Prediction Method

BriefGPT - AI 论文速递 ·

本研究提出了一种高效的迭代数据选择框架LEAD，旨在降低计算开销。LEAD通过准确估计样本效用，消除额外的模型推理需求，从而显著提升模型性能并缩短训练时间。

LEAD: An Efficient Iterative Data Selection Framework for Instruction Tuning of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过在小数据集上搜索量化策略并推广到大规模数据集，解决了混合精度量化方法的计算开销问题。实验结果表明，该方法在CIFAR10数据集上达到了与ImageNet相当的准确度，同时显著降低了计算成本，效率提高了150%。

Learning from Loss Landscape: Achieving Generalizable Mixed-Precision Quantization via Adaptive Sharpness-Aware Gradient Aligning

BriefGPT - AI 论文速递 ·

本研究提出了一种新的数据混合策略，解决了现有方法在预定数据领域和计算扩展性方面的不足。在R%计算开销下，该策略的性能达到了或超过了最先进的水平。

R&B: 域重组与数据混合平衡以提高基础模型训练效率

BriefGPT - AI 论文速递 ·

本研究提出了一种轻量级验证方法LiLaVe，旨在降低大语言模型验证器的计算开销和资源消耗。LiLaVe通过提取基础LLM的隐藏状态中的正确性信号，显著提升生成任务的准确性和效率，适用于推理密集型应用。

Lightweight Latent Verifiers for Efficient Meta-Generation Strategies

BriefGPT - AI 论文速递 ·

本研究总结了高效推理的最新进展，针对复杂逻辑任务的高计算开销，提出了压缩推理链、开发紧凑语言模型和提升推理速度三种解决方案。

Efficient Inference Models: A Review

BriefGPT - AI 论文速递 ·

本研究提出了“必要时才争辩”框架，以降低多智能体协作在提升大型语言模型推理能力时的计算开销和错误风险。该框架通过选择性激活争辩过程，提高效率并保持或超越现有系统性能，实验结果表明其能减轻错误传播，促进可靠响应的整合。

Debate Only When Necessary: Adaptive Multi-Agent Collaboration for Efficient LLM Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了一种新的参数高效调优（FPET）方法，旨在解决大型预训练模型的推理延迟和计算开销问题。FPET通过引入令牌冗余减少模块，提高了推理速度和训练效率，同时保持高存储效率，实验结果表明其在推理速度和内存效率上优于传统方法。

Faster Parameter-Efficient Tuning with Token Redundancy Reduction

BriefGPT - AI 论文速递 ·

本文提出了一种混合级指令注入策略（HICom），旨在降低多模态大语言模型处理视频帧的计算开销。HICom通过指令条件指导压缩，保留用户关注的信息。实验结果表明，HICom在减少令牌的同时，视频理解能力显著提升，性能平均提高2.43%，并节省了78.8%的令牌。

Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在复杂任务中的推理效率，特别是长推理链的计算开销。论文系统性调查了提升LLMs推理效率的多种方法，包括模型、输出和输入提示的优化，以及高效数据的培训。

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了SenseExpo框架，基于轻量级预测网络，克服了传统方法在计算开销和环境泛化方面的局限性。在KTH数据集上，该框架实现了约67.9%的时间缩减，表现显著优于类似方法。

SenseExpo: An Efficient Autonomous Exploration Framework Based on Lightweight Neural Networks

BriefGPT - AI 论文速递 ·

本文提出了一种元推理器框架，旨在优化大语言模型的推理时间和计算开销。该框架基于人类元认知理论，通过动态推理优化机制，灵活评估推理进展并选择最佳策略，从而提高推理效率，适用于推理密集型任务。

Meta-Reasoner: Dynamic Guidance for Optimizing Inference Time in Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出FR-Spec框架，解决了大词汇量语言模型推测采样效率低的问题。该方法通过压缩词汇空间和优化候选选择，减少了75%的计算开销，同时保持输出一致性。实验结果表明，FR-Spec在多个数据集上相较于EAGLE-2实现了1.12倍的加速。

FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling

BriefGPT - AI 论文速递 ·

本研究提出了一种新的成对Shapley值框架，旨在解决可解释人工智能中的可解释性和可扩展性问题。该方法通过比较特征归因与数据实例对，提供更直观的解释，降低计算开销，提升XAI的实际应用能力。

From Abstraction to Action: Pairwise Shapley Values for Explainable Artificial Intelligence

BriefGPT - AI 论文速递 ·

本研究提出了一种新的视角，针对多模态大语言模型中视觉标记的计算开销问题。通过DART修剪方法，能够在信息损失较少的情况下显著加快处理速度，实验表明DART可修剪88.9%的视觉标记并提升速度。

Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More

BriefGPT - AI 论文速递 ·