小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了现代GBERT系列德国编码器模型，旨在满足资源有限时对编码器模型的需求。该模型在自然语言理解、文本嵌入和长上下文推理任务上表现优异，推动了德国NLP生态系统的发展。

Modern GBERT: German Independent Encoder Model Trained from Scratch

BriefGPT - AI 论文速递 ·

本文提出了MLRBench，一个新的多语言长上下文推理基准，旨在克服现有基准的局限性。研究表明，高资源语言与低资源语言之间存在显著差距，且大型语言模型在多语言环境中有效利用的上下文长度不足30%。

Can Large Language Models Reason Over Extended Multilingual Contexts? Long-Context Evaluation Beyond Retrieval and Information Stacks

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在长上下文推理中的挑战，并提出了一种后训练合成数据生成策略，以扩展LLMs的上下文窗口。研究表明，该模型在高达100万标记的上下文长度下表现良好，同时在通用语言任务中保持稳定性能。

通过层次合成数据生成将指令调优的LLM扩展到百万标记上下文

BriefGPT - AI 论文速递 ·

InftyThink方法通过将推理转变为迭代过程，突破了大语言模型在长上下文推理中的计算复杂性和性能限制，实现了无限推理深度和有限计算成本。实验结果表明，该方法在多个基准测试中提升了性能并降低了计算开销。

InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出APB框架，通过在GPU之间传递压缩上下文块，解决大型语言模型长上下文推理的效率瓶颈。该框架优化了计算和并行性，显著提升了预填充速度，同时保持了任务性能。

APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs

BriefGPT - AI 论文速递 ·