小红花·文摘

抽样分布与统计检验

DEV Community ·

本研究解决了训练大型语言模型时自我评估和自我修正的数据质量问题，提升了复杂问题解决的效果。通过提出一种新的迭代深度抽样算法框架，手动触发模型的自我修正机制，显著提高了在困难推理任务上的成功率。该方法在Math500和AIME基准测试中的实验结果表明，有望为下一代大型语言模型的训练带来显著改进。

大型语言模型的迭代深度抽样

BriefGPT - AI 论文速递 ·

本文提出了一种新方法，解决泊松回归中的数据抽样效率问题。通过引入复杂度参数和领域转移，显著降低了对输入参数的依赖，尤其在处理ID链接和平方根链接时，提供了新的界限和影响。

基于p次根链接的泊松回归数据子抽样

BriefGPT - AI 论文速递 ·

本文介绍了一种新的基于神经网络的连续学习算法UCL，旨在解决灾难性遗忘和噪声标签问题。通过引入新的抽样策略和分类器，实验结果表明该算法在多种学习任务中表现优异，显著减少遗忘现象并提高准确率。

无先验平衡重放：基于不确定性引导的长尾持续学习的水库抽样

BriefGPT - AI 论文速递 ·

本文提出了一种新的梯度估计器SIMPLE，结合前向离散子集采样与快速计算边际梯度，具有更低的偏差和方差。同时，研究探讨了基于鲍姆-韦尔奇定理的核估计方法，并提出了基于正则化的分数估计器，以提高扩散生成模型的训练和采样效率。

重新审视用于 $k$- 子集抽样的得分函数估计器

BriefGPT - AI 论文速递 ·

本文提出了一种结合约束编程与语言模型的文本生成框架，名为MuCoLa，能够生成高度约束的文本，显著提升了避免有害信息和情感控制等任务的性能。此外，研究探讨了基于神经网络的生成模型和深度强化学习在组合优化问题中的应用，展示了其高效性和优越性。

NLP 抽样：将 MCMC 与 NLP 方法相结合用于多样化约束抽样

BriefGPT - AI 论文速递 ·

该研究探讨了利用随机优化取样算法（RTO）和贝叶斯框架进行高维非线性反问题的图像处理，提出了基于Langevin动力学的采样方法，应用于去模糊、修复和超分辨等任务，并验证了其有效性和收敛性。

贝叶斯反演中的抽样策略：RTO 和 Langevin 方法的研究

BriefGPT - AI 论文速递 ·

本文介绍了多种神经网络修剪方法，如动态修剪分区增强（DPPA）、FlexRel、LAMP、TIES-Merging和基于幅值的修剪。这些方法通过优化模型参数，提高了性能和准确性，同时减少了计算资源和带宽需求。实验结果表明，这些方法在不同任务中表现优异，能够有效压缩模型并保持预测性能。

DELLA-Merging: 通过基于大小的抽样减少模型合并中的干扰

BriefGPT - AI 论文速递 ·

本文提出了一种结合分层抽样和控制变量技术的有效抽样与评估框架，旨在降低标注成本并提高分类器性能估计的准确性。研究表明，该方法相比随机抽样显著减少样本需求和误差，适用于有限标注资源的情况。同时，探讨了模型评估和选择的不同技术，强调了在少样本学习中任务级评估的重要性。

一种高效的模型评估框架：分层、抽样和估计

BriefGPT - AI 论文速递 ·

运用机器学习和认知科学的思想相结合的方法，通过迭代的方式，从人们和 GPT-4 中获取了一组句子和频繁对话的语气，进而创造并解释了人们和 GPT-4 之间对话语气的关系的可解释的几何表示形式，从而解决了人机交互中的挑战。

通过与人员进行抽样，揭示人类和语言模型之间对话语调的相似性和差异性

BriefGPT - AI 论文速递 ·

在大型语言模型中，我们提出了一种新的方法，即具有无损加速的早期退出推理（EESD），通过在前 N 层后引入早期退出结构，利用语言模型的一部分生成初步令牌，并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制，利用汤普森采样调节生成过程，自动确定每一轮的初步令牌数量。实验结果表明，与先前的方法相比，我们的方法在解码令牌时具有明显的加速效果。

通过提前退出进行投机解码以加速 LLM 推断，并采用汤普森抽样控制机制

BriefGPT - AI 论文速递 ·

本文提出了一种名为“双重采样随机平滑框架（DSRS）”的方法，以提高神经网络的鲁棒性。研究表明，DSRS能够有效应对高维数据集中的“维数诅咒”，并在CIFAR-10和ImageNet数据集上显著提升准确性和鲁棒性。通过新的训练噪声分布和正则化方案，改善了对不同扰动的认证鲁棒性。

指数高斯分布对（双抽样）随机平滑的影响

BriefGPT - AI 论文速递 ·

本研究提出了一种新的少样本领域自适应框架SAMDA，结合了Segment Anything Model（SAM）与nnUNet，提升了图像分割的准确性和转移性。实验结果显示，该模型在显微镜和多模态图像分割任务中表现优异，超越了传统方法。此外，还提出了一种基于视觉-语言模型的领域自适应方法，显著提高了开放词汇分割任务的性能。

ED-SAM：一种高效的扩散抽样方法用于视觉 - 语言基础模型中的领域泛化

BriefGPT - AI 论文速递 ·

本文提出了一种结合变分自编码器（VAE）和神经网络回归器的统一概率模型，能够精确预测MR图像的年龄，并揭示人脑结构的发育规律。研究利用图变分自编码器和有监督学习，分析神经系统疾病中的海马形态变异，区分与年龄和疾病相关的潜变量，为多发性硬化症患者的研究提供了重要见解。

基于人口学条件的变分自编码器用于 fMRI 分布抽样与混淆因素去除

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型中的奖励模型优化问题，提出了贝叶斯奖励模型和DPO算法，以提升模型的稳定性和性能。研究表明，合成偏好数据和对比学习策略能够有效改善奖励模型质量，解决奖励过度优化和对齐问题，为强化学习提供新思路。

我们提出了一种方法来表示双分图网络，使用定制的图嵌入方法来解决研究生态网络时面临的挑战，特别是需要考虑许多协变量，尤其是为了控制采样偏差。我们将变分图自编码器方法改编为双分图的情况，这使我们能够在潜在空间中生成节点的嵌入，这两组节点的位置是基于它们的连接概率确定的。我们将社会学中常用的公平框架转化为生态学中解决采样偏差的方法。通过将 Hilbert-Schmidt 独立性准则（HSIC）作为损失函数中的附加惩罚项进行优化，我们确保潜在空间的结构与与采样过程相关的连续变量无关。最后，我们展示了当应用于 Spipoll 数据集时，我们的方法如何改变我们对生态网络的理解，这是一个众包式的植物 - 传粉者相互作用的公众科学监测计划，容易出现采样偏差。

保罗·拉姆齐：PostGIS性能：数据抽样

使用Python进行抽样与重抽样：关键区别与应用

抽样分布与统计检验

大型语言模型的迭代深度抽样

基于p次根链接的泊松回归数据子抽样

无先验平衡重放：基于不确定性引导的长尾持续学习的水库抽样

重新审视用于 $k$- 子集抽样的得分函数估计器

NLP 抽样：将 MCMC 与 NLP 方法相结合用于多样化约束抽样

贝叶斯反演中的抽样策略：RTO 和 Langevin 方法的研究

DELLA-Merging: 通过基于大小的抽样减少模型合并中的干扰

一种高效的模型评估框架：分层、抽样和估计

通过与人员进行抽样，揭示人类和语言模型之间对话语调的相似性和差异性

通过提前退出进行投机解码以加速 LLM 推断，并采用汤普森抽样控制机制

指数高斯分布对（双抽样）随机平滑的影响

ED-SAM：一种高效的扩散抽样方法用于视觉 - 语言基础模型中的领域泛化

基于人口学条件的变分自编码器用于 fMRI 分布抽样与混淆因素去除

正则化的最佳 N 抽样以减轻语言模型对齐中的奖励欺骗

双分图变分自编码器用公平潜在表示解决生态网络中的抽样偏差

猕猴：基于熵抽样和思维链合并的日志解析

条件生成模型足以从任何因果效应估计中进行抽样

保罗·拉姆齐：PostGIS性能：数据抽样

使用Python进行抽样与重抽样：关键区别与应用

抽样分布与统计检验

大型语言模型的迭代深度抽样

基于p次根链接的泊松回归数据子抽样

无先验平衡重放：基于不确定性引导的长尾持续学习的水库抽样

重新审视用于 $k$- 子集抽样的得分函数估计器

NLP 抽样：将 MCMC 与 NLP 方法相结合用于多样化约束抽样

贝叶斯反演中的抽样策略：RTO 和 Langevin 方法的研究

DELLA-Merging: 通过基于大小的抽样减少模型合并中的干扰

一种高效的模型评估框架： 分层、抽样和估计

通过与人员进行抽样，揭示人类和语言模型之间对话语调的相似性和差异性

通过提前退出进行投机解码以加速 LLM 推断，并采用汤普森抽样控制机制

指数高斯分布对（双抽样）随机平滑的影响

ED-SAM：一种高效的扩散抽样方法用于视觉 - 语言基础模型中的领域泛化

基于人口学条件的变分自编码器用于 fMRI 分布抽样与混淆因素去除

正则化的最佳 N 抽样以减轻语言模型对齐中的奖励欺骗

双分图变分自编码器用公平潜在表示解决生态网络中的抽样偏差

猕猴：基于熵抽样和思维链合并的日志解析

条件生成模型足以从任何因果效应估计中进行抽样

一种高效的模型评估框架：分层、抽样和估计