小红花·文摘

HotSpot JVM中的SIMD向量 - 自动向量化与向量API

insidejava ·

DuckDB 采用向量批处理和 morsel-driven 并行执行模型，显著提升数据处理效率。在 OLAP 任务中，DuckDB 的表现优于 PostgreSQL 和 ClickHouse，支持动态任务调度和负载均衡。其物理算子通过管道化处理数据，优化哈希连接和聚合操作，优化器通过下推谓词和动态规划提升查询性能。

【列存引擎内核】DuckDB 向量化与 Morsel-Driven Pipeline

土法炼钢兴趣小组的博客 ·

在处理大型数据集时，逐行迭代会导致性能瓶颈。本文介绍了七种在pandas中替代循环的方法，包括向量化操作、条件逻辑函数、np.where()、np.select()、字典查找、字符串操作和.groupby()，这些方法能有效提高数据处理效率。

停止在Pandas中编写循环：7种更快的替代方法

KDnuggets ·

NumPy是Python科学计算和机器学习的核心，优化代码性能至关重要。文章介绍了三种技巧：1. 使用向量化和广播替代显式循环，以提高计算速度；2. 利用就地操作和out参数减少内存分配；3. 理解视图与复制的区别，使用基本切片避免不必要的内存开销。这些技巧能显著提升数据处理效率。

提升数值性能的三种NumPy技巧

KDnuggets ·

回测引擎在量化交易中至关重要，需满足再现性、可比性、可调参和贴近实盘四个目标。向量化回测适合参数扫描，而事件驱动回测用于实盘验证。两者各有优缺点，需根据阶段选择。工程质量直接影响策略上线表现，确保回测结果可信至关重要，同时对账流程和成本模型的设计也不可忽视，以提高回测的准确性和可靠性。

【量化交易】回测引擎设计：事件驱动与向量化

土法炼钢兴趣小组的博客 ·

本文讨论了数据科学中使用pandas的最佳实践，重点介绍了方法链、pipe()模式、高效的连接与合并、groupby优化、向量化条件逻辑和性能陷阱。通过避免不必要的中间变量和使用向量化操作，可以提高代码的可读性和执行效率。建议使用transform()替代agg()，并利用np.where()和np.select()进行条件赋值，以提升性能。

大多数数据科学家未使用的高级Pandas模式

KDnuggets ·

检索增强生成（RAG）系统是大型语言模型的自然演变，旨在克服传统模型的局限性。文章总结了构建RAG系统的七个关键步骤，包括数据源选择与清理、文档分块和向量化等。这些步骤确保生成基于证据的准确回答，从而提高LLM应用的可靠性和知识密集度。

掌握检索增强生成的七个步骤

KDnuggets ·

文章介绍了pgEdge AI工具的使用，重点讲解了如何通过文档转换、向量化和检索增强生成（RAG）构建AI聊天系统。作者分享了在本地运行整个流程的经验，包括文档向量化、相似性搜索和响应生成。pgEdge工具使AI学习变得简单易懂，适合基础设施和数据库工程师。

Richard Yen：使用pgEdge的RAG快速学习AI

Planet PostgreSQL ·

即使是生成式人工智能也使用维基百科作为来源

Stack Overflow Blog ·

本文比较了向量化和标量访问共享内存的性能，结果表明两者性能相当，且向量化访问不会引发共享内存银行冲突。通过合理设计访问模式，向量化访问能够有效减少指令数量，从而提升性能。

CUDA共享内存无银行冲突的向量化访问

Lei Mao's Log Book ·

随着生成式人工智能的发展，企业应用开发正向基于大语言模型的智能系统转型。微软推出的 Microsoft.Extensions.DataIngestion 和 Microsoft.Extensions.VectorData 库，提供标准化的数据处理能力，解决数据异构性问题，提升检索质量和系统灵活性，为现代 AI 应用构建奠定基础。