小红花·文摘

规模法则将如何决定人工智能的未来 | YC 解码

DEV Community ·

本研究系统评估了量化推理模型，发现W8A8或W4A16量化可实现无损，但较低比特宽度会影响准确性。模型大小、来源和任务难度是影响性能的关键因素，适当调整模型规模或推理步骤可提升性能。

Does Quantization Impair Inference Capability? An Empirical Study on Quantized Inference Models

BriefGPT - AI 论文速递 ·

宝可梦3D API v0.2.1

DEV Community ·

本研究提出了一种基于条件互信息的结构化滤波器修剪方法，旨在解决深度卷积神经网络在资源有限硬件上的部署问题。该方法有效减少模型大小，且准确率几乎不变。在CIFAR-10数据集上，VGG16的滤波器数量减少超过三分之一，准确率仅下降0.32%。

Pruning Deep Convolutional Neural Networks Using Conditional Mutual Information

BriefGPT - AI 论文速递 ·

本文研究了语言模型性能与交叉熵损失的关系，发现模型大小、数据集规模和计算量之间存在幂律关系。提出了神经缩放定律，强调训练数据和模型参数对测试损失的影响。通过分析485个预训练模型，提出了提高预测准确性的最佳实践，为模型选择提供参考。

损失预测：针对所有数据集的缩放法则

BriefGPT - AI 论文速递 ·

本研究探讨音乐生成模型是否编码西方音乐理论。通过SynTheory数据集，提出框架检验模型对音乐理论概念的编码能力，发现模型大小和层次影响可检测性。这一发现推动音乐生成技术在理论理解和应用方面的进步。

Do Music Generation Models Encode Music Theory?

BriefGPT - AI 论文速递 ·

计算优化采样：小型语言模型在推理任务中胜过大型模型

DEV Community ·

本文探讨了卷积神经网络的量化技术，指出逐通道和逐层量化可以显著降低模型大小并保持高准确率。介绍了量化网络的基准测试，量化实现速度提升2至3倍。强调量化在深度神经网络高效部署中的重要性，并展示了新方法AdaQAT在训练中的优势。

1位完全量化训练：将完全量化训练推向1位的极限

BriefGPT - AI 论文速递 ·

本文研究了语言模型性能与交叉熵损失之间的关系，发现损失与模型大小、数据集大小和计算量呈幂律关系。通过训练大型模型和适量数据可以实现最优效率。此外，研究表明迁移学习能够改善未标注数据的性能，并提出了基于参数、数据和计算的可预测缩放规律。

时间的重要性：适用于任意预算的规模定律

BriefGPT - AI 论文速递 ·

3D高斯喷涂技术的修剪方法优化了渲染性能，保持高质量。新方法Pixel-GS和GaussianPro通过考虑像素覆盖和先验知识，提升了重构精度和效率。EfficientGS在高分辨率场景中显著减小模型大小，同时保持渲染保真度。SRGS方法通过亚像素约束增强表示能力，实现高质量渲染。Scaffold-GS动态布局3D高斯，减少冗余，提升渲染质量。

LP-3DGS: 学习剪枝 3D 高斯点渲染

BriefGPT - AI 论文速递 ·

随着开源LLM的成熟，业务接入LLM推理需考虑显卡和模型大小。选显卡需看VRAM容量和CUDA核心数，推荐12GB起。模型大小需根据需求选硬件，如20B适用于低规格设备，400B适合数据中心级硬件。模型优化技术可降低资源需求。

本文研究了自动生成摘要与源文件不一致的问题，发现现有的一致性指标存在限制。通过对11个大型语言模型进行实际一致性评估，引入TreatFact数据集，并分析了模型大小、提示、预训练和微调数据的影响。研究发现，开源模型性能较差，但通过增加模型大小、扩展预训练数据和开发精心策划的微调数据，有潜力提升性能。实验结果表明，先前的方法和基于大型语言模型的评估器无法捕捉到临床摘要中的实际不一致性，给评估提出了新的挑战。

在大语言模型时代的摘要一致性评估

BriefGPT - AI 论文速递 ·

该文章介绍了一种基于上下文学习的方法，用于提高句子嵌入的性能，并在语义文本相似度任务上表现出色。通过调整模型大小，发现超过几十亿参数的模型会对任务性能造成损害，但最大的模型在迁移任务上取得了最先进结果。此外，使用对比学习方法对大型语言模型进行微调，使其在语义文本相似度任务上实现了新的最先进结果。

用户 - LLM: 基于用户嵌入的高效 LLM 语境化

BriefGPT - AI 论文速递 ·

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律。研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构。此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

重新思考战略环境下的学习尺度定律

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）在上下文学习（ICL）方面展示了显着的能力，通过少量的训练示例学习新任务。黄金标签对下游上下文性能有显著影响，不平衡标签对ICL影响较小。ICL对标签扰动的敏感性较低，随着模型大小的增加，ICL获得与SL相当的性能。

NoisyICL: 模型参数微噪音对上下文学习的校正

BriefGPT - AI 论文速递 ·

研究发现，对于大型语言模型，通过权重剪枝和调整模型大小等扩展技术会对其核心能力产生不同影响。减小模型大小30%以上会降低回忆预训练中的事实能力，但减小60-70%仍能保留处理上下文信息的能力。密集扩展和权重剪枝都表现出这种行为，说明模型大小扩展对事实回忆和上下文学习有本质不同的影响。

探索用于下游数据修剪的学习复杂性

BriefGPT - AI 论文速递 ·

神经一体化无网格（NIM）方法结合了传统无网格离散化技术和深度学习，提高了解决方案的表示，减少了模型大小和梯度计算需求，提高了训练效率。实验结果显示NIM方法在静态和瞬态基准问题上有效，具有准确性、可扩展性、泛化性和收敛性。与其他方法相比，尤其是V-NIM，NIM方法在全面预测能力方面提高了准确性和效率。