当预训练数据与目标任务匹配时，语言模型性能提升

Every data selection method inherently has a target. In practice, these targets often emerge implicitly through benchmark-driven iteration: researchers develop selection strategies, train models,...

本文提出了一种基准目标排名方法（BETR），通过比较预训练文档与基准训练示例的相似性来优化数据选择。BETR在共享空间中嵌入基准示例和预训练文档，利用相似性评分训练轻量级分类器。研究表明，BETR在多个任务上显著提升性能，且更大的模型需要更少的过滤，强调数据选择策略需适应模型规模。

BETR 数据选择模型规模相似性评分语言模型轻量级分类器

原文英文，约300词，阅读约需1分钟。发表于：。

阅读原文

分享给好友

DeepAllo：首次使用蛋白质语言模型和多任务学习进行变构位点预测

语言模型

发表于：。

阅读原文

分享给好友

舍弃自回归，离散扩散语言模型如何演化？NUS综述解构技术图谱与应用前沿

图谱语言模型

发表于：。

阅读原文

分享给好友

苹果智能基础语言模型技术报告 2025

We introduce two multilingual, multimodal foundation language models that power Apple Intelligence features across Apple devices and services: (i) a ∼3B-parameter on-device model optimized for...

苹果推出了两种多语言、多模态的基础语言模型：优化的3B参数设备模型和可扩展的服务器模型。两者经过大规模数据训练，支持多种语言，具备图像理解和工具调用能力。新框架简化了开发者集成过程，注重用户隐私和内容过滤。

内容过滤多模态用户隐私苹果语言模型

原文英文，约300词，阅读约需1分钟。发表于：。

阅读原文

分享给好友

一种变分框架，用于提高生成语音语言模型的自然性

The success of large language models in text processing has inspired their adaptation to speech modeling. However, since speech is continuous and complex, it is often discretized for...

大型语言模型在文本处理中的成功促使其应用于语音建模，但现有语音标记主要关注语言特征，忽视韵律信息，导致生成语音自然性不足。为此，我们提出一种端到端的变分方法，自动学习连续语音属性，增强语义标记，避免手动特征提取。

变分方法语义标记语言模型语音建模韵律信息

原文英文，约200词，阅读约需1分钟。发表于：。

阅读原文

分享给好友

扩散语言模型写代码！速度比自回归快10倍

在H100 GPU上达到1109tokens/秒吞吐量

Mercury是一种高效的扩散语言模型，生成代码速度比传统模型快10倍，达到1109 tokens/秒。它采用“从噪声到结构化输出”的方法，具备动态纠错能力，提升生成灵活性。Mercury结合Transformer架构，优化硬件利用，解决CI/CD速度瓶颈。

CI/CD Mercury 代码生成动态纠错扩散语言模型语言模型

原文中文，约2700字，阅读约需7分钟。发表于：。

阅读原文

分享给好友

OpenAI即将发布开放语言模型

Microsoft's complicated relationship with OpenAI is about to take an interesting turn. As the pair continue to renegotiate a contract to allow OpenAI to restructure into a for-profit company,...

微软与OpenAI的关系正在变化。OpenAI计划发布一个开放的语言AI模型，允许其他公司和政府自行运行，可能会影响微软的AI业务。这是自2019年发布GPT-2以来，OpenAI首次推出开放权重模型，可能引发关于开放程度的讨论。

AI业务 OpenAI 开放权重微软语言AI模型语言模型

原文英文，约700词，阅读约需3分钟。发表于：。

阅读原文

分享给好友

苹果刚刚发布了一个奇怪但有趣的编码语言模型

更有趣的是，苹果的模型是基于阿里巴巴的开源基础模型 Qwen2.5‑7B 构建的。阿里巴巴首先对该模型进行了微调，以实现更好的代码生成(作为 Qwen2.5‑Coder‑7B)，然后苹果将其拿来进行了自己的调整。

苹果发布了新编码语言模型DiffuCode-7B-cpGRPO，该模型采用扩散模型生成代码，速度更快且性能优于传统模型。它基于阿里巴巴的Qwen2.5-7B微调而成，生成代码时灵活性更高，但仍有改进空间。

DiffuCode-7B-cpGRPO Qwen2.5-7B 代码生成扩散模型苹果语言模型阿里巴巴

原文中文，约2100字，阅读约需5分钟。发表于：。

阅读原文

分享给好友

参数与FLOPs：混合专家语言模型的最佳稀疏性扩展规律

This paper was accepted at the Sparsity in LLMs (SLLM): Deep Dive into Mixture of Experts, Quantization, Hardware, and Inference workshop at ICLR 2025. Scaling the capacity of language models has...

研究表明，扩大语言模型的容量可以提升性能，主要通过增加模型参数和计算量来实现。稀疏专家混合模型（MoEs）在不显著增加计算量的情况下扩展参数数量。研究发现，在不同约束条件下，存在最佳稀疏水平，能够提高训练效率和模型性能，从而为MoEs的扩展提供了更深入的理解。

参数数量稀疏专家混合模型计算量训练效率语言模型

原文英文，约200词，阅读约需1分钟。发表于：。

阅读原文

分享给好友

LM Studio 0.3.17 增加了对工具集成的语言模型（LLMs）支持的模型上下文协议（MCP）

LM Studio has released version 0.3.17, introducing support for the Model Context Protocol (MCP) — a step forward in enabling language models to access external tools and data sources. Originally...

LM Studio发布0.3.17版本，支持模型上下文协议（MCP），允许语言模型访问外部工具和数据源。用户可通过配置文件或一键集成添加MCP服务器，强调安全性并可确认工具调用。MCP服务器可访问Hugging Face API，增强本地模型功能。社区对此项目表现出兴趣，但部分用户报告早期问题。

Hugging Face LM Studio MCP 协议安全性模型功能语言模型

LM Studio 0.3.17 增加了对工具集成的语言模型（LLMs）支持的模型上下文协议（MCP）

原文英文，约500词，阅读约需2分钟。发表于：。

阅读原文

分享给好友