小红花·文摘

该研究提出RWKV-7 '鹅'，通过创新的状态演化方法和向量值门控，提升多语言任务中的序列建模性能与效率，超越传统变压器架构。

RWKV-7 '鹅'与表现丰富的动态状态演化

BriefGPT - AI 论文速递 ·

让人工智能更易获取：在Databricks上使用Meta Llama 3.3实现高达80%的成本节省

Databricks ·

本文介绍了如何使用Hugging Face的mBERT进行跨语言迁移学习，包括安装库、下载和预处理英文数据集、微调mBERT模型，并在法语数据集上评估。结果表明，模型在未训练的语言上也能良好泛化，展示了mBERT处理多语言任务的能力。

如何在Hugging Face Transformers中使用mBERT实现跨语言迁移学习

KDnuggets ·

该论文评估了大型语言模型（LLMs）在多语言和多模态任务中的表现，发现现有模型在复杂问题上的准确率普遍低于50%，尤其在文化知识和跨语言理解方面有显著改进空间。新提出的评估工具和数据集旨在推动模型的发展和研究。

JMMMU：一个针对文化意识评估的日本大型多学科多模态理解基准

BriefGPT - AI 论文速递 ·

本研究提出了一种跨语言干预框架（INCLINE），旨在缩小大型语言模型在不同语言间的性能差距。通过对低表现语言与高表现语言的内部表征进行对齐，显著提升了多语言任务的性能。实验结果表明，INCLINE 在多个模型和任务中均有显著改进，具备良好的成本效益和应用潜力。

Bridging Language Gaps in Large Language Models through Inference-Time Cross-Lingual Intervention

BriefGPT - AI 论文速递 ·

本研究改进了传统CLIP模型，提出Robotic-CLIP，通过微调30多万段动作视频，提升了机器人感知能力。实验表明，Robotic-CLIP在多语言机器人任务和实际抓取应用中表现出色。

Robotic CLIP: Fine-tuning CLIP for Action Data Applications in Robotics

BriefGPT - AI 论文速递 ·

本文概述了指令调优（IT）在大型语言模型（LLMs）中的应用，探讨了IT方法论、数据集构建和模型训练等方面，指出现有策略的不足并提出改进方向。TULU 2模型及其相关数据集在多语言任务中表现优越，推动了开放资源的发展和未来的研究合作。

Aquila2 技术报告

BriefGPT - AI 论文速递 ·

Mistral AI与NVIDIA发布Mistral NeMo 12B：一款尖端企业AI模型

NVIDIA Blog ·

本研究探讨了深度学习中嵌入初始化方法对自然语言处理任务的影响，发现预训练嵌入优于随机初始化，且高方差初始化会影响网络性能。研究分析了预训练词向量在低资源翻译中的提升效果，并提出了改进语言模型的有效方法，通过优化嵌入权重和参数分配，显著提高了模型在多语言任务中的表现。

使用预训练嵌入初始化 Transformer

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在跨语言常识推理中的数据增强潜力，实验表明GPT-4生成的数据性能最佳，且在多语言任务中表现优越。研究还提出了基于机器学习的模型选择方法，提升了跨语言迁移能力，显示出大型语言模型在多语言翻译和任务中的应用前景。

利用基于 LLM 的增强方法与有效数据选择来提升零 - shot 跨语言性能

BriefGPT - AI 论文速递 ·

本文提出了一种将外部知识图谱融入Transformer模型的方法，以解决语言模型中的幻觉和不安全输出问题。研究表明，知识神经元在存储事实知识中起着重要作用，并通过实验验证了该模型在多语言任务中的有效性。此外，提出了基于知识蒸馏的压缩方法，以应对模型过大和延迟高的问题。

预训练 Transformer 中的知识传递

BriefGPT - AI 论文速递 ·

本文介绍了一种名为条件遮蔽语言建模（CMLM）的新训练方法，能够在大规模未标记语料库上有效学习句子表示。CMLM在多语言任务中表现优异，尤其在跨语言语义搜索中提升了10%。该方法还探讨了去除语言偏见的可能性，同时保留句子语义，显示出在低资源设置下的优势。

探索文本生成的屏蔽语言建模和因果语言建模

BriefGPT - AI 论文速递 ·

本文探讨了GPT-2在自然语言任务中的表现，分析其内部机制和可解释性。研究表明，GPT-2具有限制的数学能力，并提出了新的方法（GPT4MIA）用于医学图像分析，显著提高了预测准确度。此外，评估了多种模型在多语言任务中的性能。

GPT-2 如何预测缩写词？通过机制解释提取和理解电路

BriefGPT - AI 论文速递 ·

本文提出了一种基于领域专家积混合策略的方法（MoKGE），旨在通过常识知识图谱提升生成推理的多样性。研究表明，MoKGE显著提高了多样性，并在多个基准测试中表现出与准确性相当的性能。此外，探讨了大型语言模型在多语言任务中的应用及其在视觉常识推理中的协同能力，提出了新的评估方法和数据集，以促进跨语言常识推理的发展。

通过上下文学习提高大型语言模型对常识生成的多样性

BriefGPT - AI 论文速递 ·

本文介绍了一种名为XPR的跨语言短语检索方法，利用无标注例句提取短语表示，并创建了包含65K双语短语对和4.2M例句的数据集。实验结果表明，XPR在零样本迁移和多语言检索任务中表现优异，显著提升了检索能力。

跨语境上下文短语检索

BriefGPT - AI 论文速递 ·

该论文介绍了一种基于大规模预训练语言模型的微调技术，提出了LoRA$+$、FLoRA、PLoRA等多种改进方法，显著提升了模型性能和微调速度。这些方法在多语言任务中表现优异，优化了参数效率，解决了训练不稳定性和内存占用问题。

AutoLoRA: 基于元学习的低秩适应中矩阵秩的自动调整

BriefGPT - AI 论文速递 ·