小红花·文摘

浅析下mysql的索引的基数与可选择性

Nicksxs's Blog ·

HyperLogLog是一种高效的基数估计算法，使用仅12KB内存即可估算高达10亿的独立访客数，标准误差约为0.81%。该算法通过哈希值的前导零数量来估计基数，并采用调和平均降低方差。HyperLogLog++进一步优化了算法，支持稀疏表示和偏差修正，广泛应用于广告系统和数据分析中。

HyperLogLog：用 12KB 统计十亿基数

土法炼钢兴趣小组的博客 ·

Rust中的高基数构建标志值

DEV Community ·

本研究针对现有基数估计方法在生产环境中的实际应用挑战，提出了DistJoin，一种基于高效分布预测的连接基数估计器。通过使用自适应神经谓词调制模型，DistJoin不仅支持等值和非等值连接的准确基数估计，还显著提高了对数据更新的鲁棒性和处理速度，有效减少了估计方差。

DistJoin：基于自适应神经谓词调制的解耦连接基数估计器

BriefGPT - AI 论文速递 ·

[SQL] 关系数据库模型中的基本术语及关系的特点

DEV Community ·

本研究提出了一种基于地标的上界最短路径新方法，有效解决了成本约束下的基数限制问题，显著提升了算法的实际应用性能。

高效实现具有成本的全局基数约束

BriefGPT - AI 论文速递 ·

Python 集合理论入门

DEV Community ·

本研究解决了高基数分类变量在机器学习中所带来的计算效率和模型可解释性问题。通过提出包括均值编码、低秩编码和多项式逻辑回归编码在内的新编码技术，研究展示了这些方法如何利用充分表示生成紧凑且信息丰富的分类数据嵌入。实证结果表明，与基线方法相比，所提出的技术在模型性能和计算效率方面均有显著提升，具有广泛的应用潜力。

机器学习中高基数分类变量的高效表示

BriefGPT - AI 论文速递 ·

不同数据库如何处理高基数数据

Timescale Blog ·

什么是高基数数据？

Timescale Blog ·

什么是高基数数据？

Timescale Blog ·

openGemini开发了列存引擎，通过新数据排序与索引方式，解决了海量时序数据管理问题，提升了处理效率和性能，降低了内存占用。

华为云开源时序数据库openGemini：使用列存引擎解决时序高基数问题

华为云官方博客 ·

在Oracle SQL中，基数和成本是优化器选择执行计划的关键。基数是查询返回的估计行数，影响是否使用全表扫描或索引。成本是执行查询所需资源的估计值，优化器选择最低成本的计划。准确的表统计信息对优化器决策很重要。

Oracle SQL - 基数与成本

DEV Community ·

本文介绍了多种基于学习模型和图神经网络的查询优化方法，旨在提高查询基数估计的准确性和效率。研究表明，学习模型在动态环境中表现优越，但训练成本较高。Duet方法和GNCE方法在基数估计上优于传统方法，RDBench标准化基准测试促进了机器学习研究的可复现性，ALPBench支持主动学习流程的规范和性能监控。

CardBench：用于关系数据库学习基数估计的基准

BriefGPT - AI 论文速递 ·

本文评估了大型语言模型（LLM）在地理位置斜对角方向判断能力上的表现，测试了GPT-3.5、GPT-4和Llama-2。结果显示，GPT-4的准确率为55.3%，表现最佳。研究探讨了LLM在空间推理和导航任务中的能力与局限性，强调了改进空间理解的潜力和必要性。

评估大型语言模型在理解基数方向上的能力

BriefGPT - AI 论文速递 ·

本文介绍了多种基于深度学习的查询优化器和基数估计方法，如NeuroCard、Duet和MSCN模型。这些方法利用神经网络技术，提高了查询的精确度和效率，克服了传统方法的不足，适用于复杂查询和动态环境。实验结果显示，这些新模型在准确性和系统性能上优于现有技术。

PRICE：一种用于跨数据库基数估计的预训练模型

BriefGPT - AI 论文速递 ·

本文提出了一种无监督学习框架，旨在解决图上的组合优化问题，结合神经网络和概率方法进行解的优化。研究了元学习和自适应组合最大化问题，提出了“最大增益比”这一新参数，并展示了其在主动学习中的优势。此外，研究还探讨了无数据训练方法和子模函数最小化问题，提供了有效的算法和近似保证。

应对无监督组合优化中的常见条件：基数、最小值、覆盖等

BriefGPT - AI 论文速递 ·

华为云开源的DTSE技术布道师黄飞腾分享了时序数据库的特点和遥测数据应用场景下的优势，以及openGemini时序数据库针对高基数问题开发的列存引擎。

3招解决时序数据高基数难题，性能多维度提升！

华为云官方博客 ·

本文介绍了时序数据库在企业和组织中的应用，以及InfluxDB 2.x中时间线的组织和呈现形式。同时，文章还探讨了高基数数据对InfluxDB读写性能的影响和应对措施。

理解时序数据库的时间线

Tony Bai ·