小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
保罗·拉姆齐:PostGIS性能:数据抽样

数据库用户常常需要查询大量数据以获取平均值,但对于亿级记录,这可能耗时较长。利用“大数法则”,可以通过抽样快速估算平均值。PostgreSQL的TABLESAMPLE功能支持随机抽样,显著提高查询速度。例如,在加拿大人口数据中,1%的样本能快速估算出多伦多的人口,结果仍然相当准确。

保罗·拉姆齐:PostGIS性能:数据抽样

Planet PostgreSQL
Planet PostgreSQL · 2025-11-21T13:00:00Z
使用Python进行抽样与重抽样:关键区别与应用

抽样是从原始数据集中选择子集以代表整体,常用于数据减少和模型训练;重抽样则通过插值或外推改变数据集的大小或密度,常用于数据增强和信号处理。理解这两者的区别及应用有助于提高分析的准确性和可靠性。

使用Python进行抽样与重抽样:关键区别与应用

The New Stack
The New Stack · 2025-04-16T23:00:25Z
抽样分布与统计检验

抽样分布和统计检验在统计与机器学习中至关重要。抽样分布描述样本统计量的行为,包括样本均值和样本比例。自由度影响假设检验的分布形状。Z检验适用于大样本均值比较,t检验适用于小样本,卡方检验用于分类变量的关联分析。理解这些概念有助于有效的数据分析。

抽样分布与统计检验

DEV Community
DEV Community · 2025-03-06T16:30:00Z

本研究解决了训练大型语言模型时自我评估和自我修正的数据质量问题,提升了复杂问题解决的效果。通过提出一种新的迭代深度抽样算法框架,手动触发模型的自我修正机制,显著提高了在困难推理任务上的成功率。该方法在Math500和AIME基准测试中的实验结果表明,有望为下一代大型语言模型的训练带来显著改进。

大型语言模型的迭代深度抽样

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-08T00:00:00Z

本文提出了一种新方法,解决泊松回归中的数据抽样效率问题。通过引入复杂度参数和领域转移,显著降低了对输入参数的依赖,尤其在处理ID链接和平方根链接时,提供了新的界限和影响。

基于p次根链接的泊松回归数据子抽样

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本文介绍了一种新的基于神经网络的连续学习算法UCL,旨在解决灾难性遗忘和噪声标签问题。通过引入新的抽样策略和分类器,实验结果表明该算法在多种学习任务中表现优异,显著减少遗忘现象并提高准确率。

无先验平衡重放:基于不确定性引导的长尾持续学习的水库抽样

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文提出了一种新的梯度估计器SIMPLE,结合前向离散子集采样与快速计算边际梯度,具有更低的偏差和方差。同时,研究探讨了基于鲍姆-韦尔奇定理的核估计方法,并提出了基于正则化的分数估计器,以提高扩散生成模型的训练和采样效率。

重新审视用于 $k$- 子集抽样的得分函数估计器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-22T00:00:00Z

本文提出了一种结合约束编程与语言模型的文本生成框架,名为MuCoLa,能够生成高度约束的文本,显著提升了避免有害信息和情感控制等任务的性能。此外,研究探讨了基于神经网络的生成模型和深度强化学习在组合优化问题中的应用,展示了其高效性和优越性。

NLP 抽样:将 MCMC 与 NLP 方法相结合用于多样化约束抽样

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

该研究探讨了利用随机优化取样算法(RTO)和贝叶斯框架进行高维非线性反问题的图像处理,提出了基于Langevin动力学的采样方法,应用于去模糊、修复和超分辨等任务,并验证了其有效性和收敛性。

贝叶斯反演中的抽样策略:RTO 和 Langevin 方法的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

本文介绍了多种神经网络修剪方法,如动态修剪分区增强(DPPA)、FlexRel、LAMP、TIES-Merging和基于幅值的修剪。这些方法通过优化模型参数,提高了性能和准确性,同时减少了计算资源和带宽需求。实验结果表明,这些方法在不同任务中表现优异,能够有效压缩模型并保持预测性能。

DELLA-Merging: 通过基于大小的抽样减少模型合并中的干扰

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

本文提出了一种结合分层抽样和控制变量技术的有效抽样与评估框架,旨在降低标注成本并提高分类器性能估计的准确性。研究表明,该方法相比随机抽样显著减少样本需求和误差,适用于有限标注资源的情况。同时,探讨了模型评估和选择的不同技术,强调了在少样本学习中任务级评估的重要性。

一种高效的模型评估框架: 分层、抽样和估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

运用机器学习和认知科学的思想相结合的方法,通过迭代的方式,从人们和 GPT-4 中获取了一组句子和频繁对话的语气,进而创造并解释了人们和 GPT-4 之间对话语气的关系的可解释的几何表示形式,从而解决了人机交互中的挑战。

通过与人员进行抽样,揭示人类和语言模型之间对话语调的相似性和差异性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-06T00:00:00Z

在大型语言模型中,我们提出了一种新的方法,即具有无损加速的早期退出推理(EESD),通过在前 N 层后引入早期退出结构,利用语言模型的一部分生成初步令牌,并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制,利用汤普森采样调节生成过程,自动确定每一轮的初步令牌数量。实验结果表明,与先前的方法相比,我们的方法在解码令牌时具有明显的加速效果。

通过提前退出进行投机解码以加速 LLM 推断,并采用汤普森抽样控制机制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-06T00:00:00Z

本文提出了一种名为“双重采样随机平滑框架(DSRS)”的方法,以提高神经网络的鲁棒性。研究表明,DSRS能够有效应对高维数据集中的“维数诅咒”,并在CIFAR-10和ImageNet数据集上显著提升准确性和鲁棒性。通过新的训练噪声分布和正则化方案,改善了对不同扰动的认证鲁棒性。

指数高斯分布对(双抽样)随机平滑的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-04T00:00:00Z

本研究提出了一种新的少样本领域自适应框架SAMDA,结合了Segment Anything Model(SAM)与nnUNet,提升了图像分割的准确性和转移性。实验结果显示,该模型在显微镜和多模态图像分割任务中表现优异,超越了传统方法。此外,还提出了一种基于视觉-语言模型的领域自适应方法,显著提高了开放词汇分割任务的性能。

ED-SAM:一种高效的扩散抽样方法用于视觉 - 语言基础模型中的领域泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

使用基于变分自编码器 (VAE) 的模型 DemoVAE 对 fMRI 特征与人口统计学进行去相关,并生成以用户提供的人口统计学为基础的高质量合成 fMRI 数据。验证结果表明 DemoVAE 可以捕捉个体之间的全部变异并复现 fMRI 数据中的群体差异。与 fMRI 数据相关的临床和计算测电池领域与 DemoVAE 编码无关,仅与精神分裂症药物和症状严重程度有关的领域例外。DemoVAE 模型允许生成以受试者人口统计学信息为条件的高质量合成数据,并消除人口统计学的混杂效应。基于功能连接的预测任务受人口统计学混淆的影响较大。

基于人口学条件的变分自编码器用于 fMRI 分布抽样与混淆因素去除

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

学习从偏好数据中获取奖励模型并将其用于更新语言模型是一种常见的方法。研究发现,通过使用与 Bradley-Terry 偏好模型学习的奖励的概率解释对齐过程,可以得到一种自然的转换选择。这种转换具有改进表现较差的输出和奖励的有原则的聚合的属性。使用这种方法对调整语言模型进行实验,与基准方法相比有显著改进。

正则化的最佳 N 抽样以减轻语言模型对齐中的奖励欺骗

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

我们提出了一种方法来表示双分图网络,使用定制的图嵌入方法来解决研究生态网络时面临的挑战,特别是需要考虑许多协变量,尤其是为了控制采样偏差。我们将变分图自编码器方法改编为双分图的情况,这使我们能够在潜在空间中生成节点的嵌入,这两组节点的位置是基于它们的连接概率确定的。我们将社会学中常用的公平框架转化为生态学中解决采样偏差的方法。通过将 Hilbert-Schmidt 独立性准则(HSIC)作为损失函数中的附加惩罚项进行优化,我们确保潜在空间的结构与与采样过程相关的连续变量无关。最后,我们展示了当应用于 Spipoll 数据集时,我们的方法如何改变我们对生态网络的理解,这是一个众包式的植物 - 传粉者相互作用的公众科学监测计划,容易出现采样偏差。

双分图变分自编码器用公平潜在表示解决生态网络中的抽样偏差

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-04T00:00:00Z

本文介绍了一种神经语义解析器,将自然语言表达式映射到逻辑形式,以执行特定任务。解析器使用转换方法生成树形结构的逻辑形式,并使用循环神经网络进行预测。实验验证了解析器的有效性。

猕猴:基于熵抽样和思维链合并的日志解析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z

深度生成模型与结构因果模型的结合在数据密度估计和有限样本数据生成方面取得了巨大成功。因果生成模型在公平性、隐私、超出分布泛化和精准医学方面有潜力。

条件生成模型足以从任何因果效应估计中进行抽样

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码