小红花·文摘

大型语言模型与小型语言模型

ByteByteGo Newsletter ·

OpenClaw通过CLI绕过Claude API限制新玩法曝光

极道 ·

跨模块、宽度、深度、批量和时长的完整超参数转移

Apple Machine Learning Research ·

开源检索基础设施可以弥补AI的生产差距

The New Stack ·

使用流水线并行性在多个GPU上训练大型模型

MachineLearningMastery.com ·

Vercel AI - Vercel推出的开源TypeScript AI工具包，简化大型模型的构建…

云原生 ·

Uni-MoE-2.0-Omni：基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

实时互动网 ·

通过稀疏电路理解神经网络

OpenAI ·

为什么小型语言模型（SLM）有望重新定义 Agentic AI：效率、成本和实际部署

实时互动网 ·

本研究探讨了机制可解释性在简单电路与大型模型特征发现中的差距，提出TinySQL数据集作为测试平台，揭示可解释性方法的潜力与局限性，并改进合成数据集设计。

TinySQL：用于机制可解释性研究的渐进式文本到SQL数据集

BriefGPT - AI 论文速递 ·

2025年的人工智能

Sequoia Capital US/Europe ·

数据的未来：变换模型与大数据转型的对比

DEV Community ·

MindSpeed开发了一种优化训练大型模型的解决方案，特别是长序列。他们改进了并行算法、计算效率、内存使用和通信，以支持使用数百万个长序列进行训练。他们的解决方案包括支持三种并行算法，FlashAttention用于高效计算注意力，内存优化技术和P2P通信优化。MindSpeed旨在加速大型模型的分布式训练。

百万级超长序列大模型训练如何加速，硬核解读MindSpeed方案

华为云官方博客 ·

本文探讨了多语言情感分析的有效性，比较了小型多语言模型与大型通用模型在零样本和少样本设置中的表现。研究表明，递归神经网络和预训练的BERT模型能提高情感分类的准确性。此外，提出了一种新的多语言情感分析框架，经过测试，尤其在金融情感分析中，基于检索增强的模型显著提升了准确性。

利用大型语言模型进行立陶宛在线评论的情感分析

BriefGPT - AI 论文速递 ·

上海AI实验室推出了首个模拟交互式3D世界“GRUtopia”，包含89个场景类别。项目计划开源，提供demo安装指南。核心工作包括GRScenes（大规模场景数据集）、GRResidents（NPC系统）和GRBench（benchmark）。实验结果表明，使用大型模型作为后端代理的表现更好。研究工作由上海人工智能实验室OpenRobot Lab领衔。

“具身智能小镇”来了！机器人逛超市买菜满街跑，来自上海AI Lab

量子位 ·

手机端运行大型模型是未来趋势，但硬件条件限制。目前高端手机如iPhone 15 Pro显存不足，无法支持大型模型。通过模型量化可以降低显存需求，部分应用已实现优化，能够在低内存设备上运行。尽管图生成模型在高端机上可行，LLM模型仍需系统级集成，实际应用尚待时日。

手机能跑图生成和 LLM 大模型吗

bang's blog ·

在稳定扩散中生成逼真的人脸

MachineLearningMastery.com ·

本文综述了大型模型驱动的数据增强方法，涵盖图像、文本和配对数据增强，评估其在不同场景下的成功与限制，并探讨未来研究方向。重点介绍基于神经网络和变换器的技术，讨论数据增强的实际问题及解决方案，以提高机器学习分类系统的泛化能力。

利用数据增强技术进行过程信息提取

BriefGPT - AI 论文速递 ·

最近的研究调查了大型语言模型在指令遵循方面的表现。较大的模型在遵循指令方面表现最佳，并且对内部和上下文指令具有覆盖能力。然而，在进行长上下文的缩放时需要保持与困惑度边缘的显著缓冲区，以保持指令遵循能力。提高指令遵循与遵循给定安全过滤器或指南的能力相互冲突，因此处理安全可信人工智能的最有效方法应该是在语言模型之外进行。

忽略不计：大型语言模型中的指令覆盖和调控

BriefGPT - AI 论文速递 ·

大型模型在深度学习领域取得显著成绩，但其不可信赖的行为成为挑战。本综述总结了人类误用、易受攻击、内在问题和解释性四个问题，并提出对策，希望促进大型模型与人类期望的一致性。

通过复用经验证的电路增强对语言模型的信任

BriefGPT - AI 论文速递 ·