标签

 语言模型 

相关的文章:

本列表汇集了关于语言模型的最新研究与应用,涵盖模型微调、生成效果优化及多任务学习等前沿技术,助力深入理解语言模型的发展动态。

当预训练数据与目标任务匹配时,语言模型性能提升

Every data selection method inherently has a target. In practice, these targets often emerge implicitly through benchmark-driven iteration: researchers develop selection strategies, train models,...

本文提出了一种基准目标排名方法(BETR),通过比较预训练文档与基准训练示例的相似性来优化数据选择。BETR在共享空间中嵌入基准示例和预训练文档,利用相似性评分训练轻量级分类器。研究表明,BETR在多个任务上显著提升性能,且更大的模型需要更少的过滤,强调数据选择策略需适应模型规模。

当预训练数据与目标任务匹配时,语言模型性能提升
原文英文,约300词,阅读约需1分钟。发表于:
阅读原文
发表于:
阅读原文
发表于:
阅读原文

苹果智能基础语言模型技术报告 2025

We introduce two multilingual, multimodal foundation language models that power Apple Intelligence features across Apple devices and services: (i) a ∼3B-parameter on-device model optimized for...

苹果推出了两种多语言、多模态的基础语言模型:优化的3B参数设备模型和可扩展的服务器模型。两者经过大规模数据训练,支持多种语言,具备图像理解和工具调用能力。新框架简化了开发者集成过程,注重用户隐私和内容过滤。

苹果智能基础语言模型技术报告 2025
原文英文,约300词,阅读约需1分钟。发表于:
阅读原文

一种变分框架,用于提高生成语音语言模型的自然性

The success of large language models in text processing has inspired their adaptation to speech modeling. However, since speech is continuous and complex, it is often discretized for...

大型语言模型在文本处理中的成功促使其应用于语音建模,但现有语音标记主要关注语言特征,忽视韵律信息,导致生成语音自然性不足。为此,我们提出一种端到端的变分方法,自动学习连续语音属性,增强语义标记,避免手动特征提取。

一种变分框架,用于提高生成语音语言模型的自然性
原文英文,约200词,阅读约需1分钟。发表于:
阅读原文
原文中文,约2700字,阅读约需7分钟。发表于:
阅读原文

OpenAI即将发布开放语言模型

Microsoft's complicated relationship with OpenAI is about to take an interesting turn. As the pair continue to renegotiate a contract to allow OpenAI to restructure into a for-profit company,...

微软与OpenAI的关系正在变化。OpenAI计划发布一个开放的语言AI模型,允许其他公司和政府自行运行,可能会影响微软的AI业务。这是自2019年发布GPT-2以来,OpenAI首次推出开放权重模型,可能引发关于开放程度的讨论。

OpenAI即将发布开放语言模型
原文英文,约700词,阅读约需3分钟。发表于:
阅读原文

苹果刚刚发布了一个奇怪但有趣的编码语言模型

更有趣的是,苹果的模型是基于阿里巴巴的开源基础模型 Qwen2.5‑7B 构建的。阿里巴巴首先对该模型进行了微调,以实现更好的代码生成(作为 Qwen2.5‑Coder‑7B),然后苹果将其拿来进行了自己的调整。

苹果发布了新编码语言模型DiffuCode-7B-cpGRPO,该模型采用扩散模型生成代码,速度更快且性能优于传统模型。它基于阿里巴巴的Qwen2.5-7B微调而成,生成代码时灵活性更高,但仍有改进空间。

原文中文,约2100字,阅读约需5分钟。发表于:
阅读原文

参数与FLOPs:混合专家语言模型的最佳稀疏性扩展规律

This paper was accepted at the Sparsity in LLMs (SLLM): Deep Dive into Mixture of Experts, Quantization, Hardware, and Inference workshop at ICLR 2025. Scaling the capacity of language models has...

研究表明,扩大语言模型的容量可以提升性能,主要通过增加模型参数和计算量来实现。稀疏专家混合模型(MoEs)在不显著增加计算量的情况下扩展参数数量。研究发现,在不同约束条件下,存在最佳稀疏水平,能够提高训练效率和模型性能,从而为MoEs的扩展提供了更深入的理解。

参数与FLOPs:混合专家语言模型的最佳稀疏性扩展规律
原文英文,约200词,阅读约需1分钟。发表于:
阅读原文

LM Studio 0.3.17 增加了对工具集成的语言模型(LLMs)支持的模型上下文协议(MCP)

LM Studio has released version 0.3.17, introducing support for the Model Context Protocol (MCP) — a step forward in enabling language models to access external tools and data sources. Originally...

LM Studio发布0.3.17版本,支持模型上下文协议(MCP),允许语言模型访问外部工具和数据源。用户可通过配置文件或一键集成添加MCP服务器,强调安全性并可确认工具调用。MCP服务器可访问Hugging Face API,增强本地模型功能。社区对此项目表现出兴趣,但部分用户报告早期问题。

LM Studio 0.3.17 增加了对工具集成的语言模型(LLMs)支持的模型上下文协议(MCP)
原文英文,约500词,阅读约需2分钟。发表于:
阅读原文