小红花·文摘 - 小红花技术领袖俱乐部

DeepSeek-v3.1 模型现已在 Amazon Bedrock 可用

DeepSeek-v3.1 模型现已在 Amazon Bedrock 可用

亚马逊AWS官方博客 ·

通过像素级回退克服词汇限制

通过像素级回退克服词汇限制

Apple Machine Learning Research ·

DeepSeek-R1 API：大语言模型接口详解

DeepSeek-R1 API：大语言模型接口详解

APISpace ·

Gemma 3支持视觉语言理解、长上下文处理和改进的多语言能力

Gemma 3支持视觉语言理解、长上下文处理和改进的多语言能力

InfoQ ·

本研究利用稀疏自编码器（SAE）分析大型语言模型的多语言能力，克服了传统方法的局限性。研究表明，SAE特征与特定语言相关，去除这些特征可提升语言控制能力。

Revealing Linguistic Features in Large Language Models through Sparse Autoencoders

BriefGPT - AI 论文速递 ·

微软原生1位大型语言模型有望为日常CPU带来高效的生成式人工智能

微软原生1位大型语言模型有望为日常CPU带来高效的生成式人工智能

InfoQ ·

本研究推出了Gemma 3，一个参数规模从10亿到270亿的多模态模型。其创新架构有效降低了长上下文的内存消耗，并显著提升了数学、对话、指令遵循和多语言能力。

Gemma 3 技术报告

BriefGPT - AI 论文速递 ·

为电子商务扩展大型语言模型：基于Llama的定制LLM开发

为电子商务扩展大型语言模型：基于Llama的定制LLM开发

eBay Tech Blog ·

藏不住了！OpenAI的推理模型有时用中文「思考」

藏不住了！OpenAI的推理模型有时用中文「思考」

机器之心 ·

本研究提出XTransplant方法，探讨大型语言模型在多语言能力和文化适应性上的不足。通过交叉语言前馈移植，显著提升了模型的多语言能力，显示出其潜力未被充分利用。

XTransplant: Exploring the Upper Bound Performance of Multilingual Capability and Cultural Adaptability in Large Language Models

BriefGPT - AI 论文速递 ·

Meta AI 发布 Llama Guard 3-1B-INT4：用于人机对话的紧凑型高性能 AI 调节模型

Meta AI 发布 Llama Guard 3-1B-INT4：用于人机对话的紧凑型高性能 AI 调节模型

实时互动网 ·

本研究提出MAET方法，通过提取语言无关的能力权重并在不同语言间转移，提升低资源语言的多语言能力。实验显示，该方法在多个任务上优于传统方法。

提取与转移能力以构建多语言增强大型语言模型

BriefGPT - AI 论文速递 ·

本研究提出了“Lens”方法，提升大型语言模型的多语言能力，特别是改善非英语用户的服务。该方法利用模型的内部语言表示空间，提高多语言处理效率，同时保持核心语言表现，并更节省计算资源。

Lens：重新思考大型语言模型的多语言增强

BriefGPT - AI 论文速递 ·

Jina ColBERT v2：用于嵌入和重排序的多语言后期交互检索器

Jina ColBERT v2：用于嵌入和重排序的多语言后期交互检索器

Jina AI ·

你好，Qwen2

你好，Qwen2

Blog on Qwen ·

通过对101种语言进行全面分析，发现大型语言模型（LLMs）具有出色的多语言能力。将相似特征的语言分类为四个象限，并深入研究每个象限的属性，可以提高LLMs的多语言表现。

大型语言模型在多种语言上的多语言性能量化

BriefGPT - AI 论文速递 ·

RWKV Foundation发布了新架构的最新论文，介绍了Eagle和Finch两种改进的RWKV架构，提高了模型表达能力和推理效率。新架构还增强了多语言能力，并在基准测试中表现出竞争力。未来的工作将聚焦于扩大训练数据集和训练更大规模的Finch模型。

RWKV-5/6（Eagle & Finch）：基于矩阵值状态和动态递归的新模型架构

六虎 ·

基于解码器的预训练语言模型（PLMs）展示了多语言能力，但多语言处理仍不清楚。研究发现，PLMs内部存在语言特定神经元，不同语言之间存在轻微重叠。干扰这些神经元会改变生成文本中目标语言的概率。

基于解码器的预训练语言模型的多语言能力：发现和控制语言特定神经元

BriefGPT - AI 论文速递 ·

OMGEval是第一个能评估LLMs在不同语言中能力的开源测试集，包括中文、俄语、法语、西班牙语和阿拉伯语。OMGEval提供了804个问题，通过GPT-4作为仲裁者，证明OMGEval与人工评估密切相关，为研究共同体进一步理解和改进LLMs的多语言能力提供参考。

OMGEval：一个开放的多语言生成评估基准测试用于大型语言模型

BriefGPT - AI 论文速递 ·

通过对101种语言进行全面分析，研究发现大型语言模型（LLMs）具有出色的多语言能力。通过将相似特征的语言分类为四个象限，并深入研究每个象限的属性，可以提高LLMs的多语言表现。实验结果表明，通过关注不同属性，可以显著提高LLMs的多语言能力。

将以英语为中心的 LLMs 转变为多语种模型：需要多少语言能力？

BriefGPT - AI 论文速递 ·