小红花·文摘

掌握600B+前沿：优化推理云上的大模型部署

The DigitalOcean Blog ·

本次作业通过基准测试和性能分析不同规模的模型，研究规模对性能的影响，并建议使用代码自动生成表格以简化报告格式化。

【Triton 教程】triton_language.div_rn

HyperAI超神经 ·

Oxygen 9N-LLM生成式推荐训练框架

京东科技开发者 ·

不同显寸对应的可运行的模型大小 - 蝈蝈俊

蝈蝈俊 ·

当预训练数据与目标任务匹配时，语言模型性能提升

Apple Machine Learning Research ·

尺度定律是OpenAI于2020年提出的原则，揭示了模型规模、数据量与计算资源之间的关系，对AI研发和产业应用产生影响。报告分析了其对大模型发展的影响、涌现能力及局限性，强调数据质量和训练方法的重要性，指出尽管尺度定律是实现通用人工智能的关键，但仍需探索更广泛的解决方案。

Scaling Laws尺度定律科普报告｜量子位智库

量子位 ·

尺度定律是OpenAI于2020年提出的原则，揭示了模型规模、数据量与计算资源的关系，影响AI研发与产业发展。量子位智库的报告分析了尺度定律的影响、涌现能力及局限性，指出大模型竞争加剧，企业需平衡模型规模与效率，推动AI硬件与云计算需求增长。

Scaling Laws尺度定律科普报告｜量子位智库

量子位 ·

本研究探讨大型语言模型（LLM）在计算最优状态下的泛化能力，提出新的不等式，发现模型规模越大，泛化间隙越小，为理解其泛化能力提供新见解。

计算最优的语言模型在规模上具有更好的可泛化性

BriefGPT - AI 论文速递 ·

本研究提出LLaVA-MORE，探讨多模态大型语言模型（MLLMs）在模型规模、架构与性能之间的权衡。通过统一训练协议，公平比较不同视觉骨干和语言模型，评估多模态推理、生成与指令遵循的关系，为设计更有效的MLLMs提供见解，并建立可重复的评估框架。

LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning

BriefGPT - AI 论文速递 ·

百万美金炼出「调参秘籍」！阶跃星辰开源LLM最优超参工具

机器之心 ·

大模型是否有自知之明？新研究发现LLM可以知晓自己的知识范围

机器之心 ·

揭示：语言人工智能技能如何真正增长 - 新研究组任务以预测改进

DEV Community ·

本研究探讨了在下一个标记预测预训练的LLM中，多标记预测（MTP）的能力。结果表明，MTP性能受数据依赖影响，并随着模型规模增大而改善。尽管MTP头与主干联合训练能提升性能，但仍存在隐藏层专门化问题，需进一步研究。

关于高效LLM推理的多标记预测

BriefGPT - AI 论文速递 ·

本文探讨了图神经网络（GNNs）在降低能耗、缩减模型规模和保持准确性方面的应用。提出的四元数信息传递神经网络（QMPNN）框架通过四元数空间计算节点表示，显著减少可训练参数数量，提高模型训练效率。

Quaternion Graph Neural Network

BriefGPT - AI 论文速递 ·

研究表明，扩大词汇量使人工智能语言模型更智能、更快速

DEV Community ·

本研究提出了一种新机制，将线性自注意力与GLU前馈层结合，使变换器在多项式核回归任务中有效进行梯度下降，强调模型规模对二次上下文学习的重要性。

Context Learning for Polynomial Kernel Regression in Transformers with GLU Layers

BriefGPT - AI 论文速递 ·

本研究介绍了Janus-Pro模型，旨在缩小多模态理解与文本到图像生成之间的能力差距。通过优化训练策略、扩大训练数据和模型规模，Janus-Pro在多模态理解和指令跟随能力上取得显著进展，增强了文本到图像生成的稳定性。

Janus-Pro: Unified Multimodal Understanding and Generation through Data and Model Scaling

BriefGPT - AI 论文速递 ·

本研究提出Kolmogorov-Arnold网络（KAN）用于高保真语音增强，实验结果表明其在提升语音质量方面表现优异，且对模型规模和运算量影响较小，显示出KAN的潜力。

KAN在语音增强中的潜力研究

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型中的成员推断攻击（MIA）性能不一致的问题。通过数千次实验的统计分析，发现样本分布差异是主要原因。研究指出模型规模、文本特征和解码动态等因素影响MIA表现，并提出了阈值决策的挑战，为提高MIA准确性提供了新见解。

A Statistical and Multi-Perspective Revisiting of the Membership Inference Attack in Large Language Models

BriefGPT - AI 论文速递 ·

本文综述了大型语言模型中的幻觉现象，探讨了导致幻觉的因素及其检测方法。研究提出结合知识图谱以提高模型的真实性和准确性，分析了模型规模与幻觉发生率的关系，并提出新方法以减少幻觉现象。

知识图谱、大型语言模型和幻觉：自然语言处理的视角

BriefGPT - AI 论文速递 ·