小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文讨论了数据科学中使用pandas的最佳实践,重点介绍了方法链、pipe()模式、高效的连接与合并、groupby优化、向量化条件逻辑和性能陷阱。通过避免不必要的中间变量和使用向量化操作,可以提高代码的可读性和执行效率。建议使用transform()替代agg(),并利用np.where()和np.select()进行条件赋值,以提升性能。

大多数数据科学家未使用的高级Pandas模式

KDnuggets
KDnuggets · 2026-04-21T14:00:40Z

检索增强生成(RAG)系统是大型语言模型的自然演变,旨在克服传统模型的局限性。文章总结了构建RAG系统的七个关键步骤,包括数据源选择与清理、文档分块和向量化等。这些步骤确保生成基于证据的准确回答,从而提高LLM应用的可靠性和知识密集度。

掌握检索增强生成的七个步骤

KDnuggets
KDnuggets · 2026-04-07T14:00:59Z

文章介绍了pgEdge AI工具的使用,重点讲解了如何通过文档转换、向量化和检索增强生成(RAG)构建AI聊天系统。作者分享了在本地运行整个流程的经验,包括文档向量化、相似性搜索和响应生成。pgEdge工具使AI学习变得简单易懂,适合基础设施和数据库工程师。

Richard Yen:使用pgEdge的RAG快速学习AI

Planet PostgreSQL
Planet PostgreSQL · 2026-03-16T08:00:00Z
即使是生成式人工智能也使用维基百科作为来源

Ryan与Wikimedia Deutschland的AI项目负责人Philippe Saade讨论了Wikidata嵌入项目,团队将3000万条Wikidata条目向量化以支持语义搜索,重点在于减轻抓取负担、维护数据完整性及用户反馈的重要性。

即使是生成式人工智能也使用维基百科作为来源

Stack Overflow Blog
Stack Overflow Blog · 2026-02-20T08:40:00Z

本文比较了向量化和标量访问共享内存的性能,结果表明两者性能相当,且向量化访问不会引发共享内存银行冲突。通过合理设计访问模式,向量化访问能够有效减少指令数量,从而提升性能。

CUDA共享内存无银行冲突的向量化访问

Lei Mao's Log Book
Lei Mao's Log Book · 2026-02-13T08:00:00Z

随着生成式人工智能的发展,企业应用开发正向基于大语言模型的智能系统转型。微软推出的 Microsoft.Extensions.DataIngestion 和 Microsoft.Extensions.VectorData 库,提供标准化的数据处理能力,解决数据异构性问题,提升检索质量和系统灵活性,为现代 AI 应用构建奠定基础。

.NET 数据摄取与向量化架构:构建企业级检索增强生成(RAG)管道

dotNET跨平台
dotNET跨平台 · 2025-12-28T00:02:26Z
.NET 数据摄取与向量化架构:构建企业级检索增强生成(RAG)管道 - 张善友

随着生成式人工智能技术的发展,企业级应用开发正在转型。微软推出的 Microsoft.Extensions.DataIngestion 和 Microsoft.Extensions.VectorData 库,标志着从实验性 AI 开发向标准化数据管道的转变。这些库通过统一文档表示和模块化设计,简化了数据处理,提高了开发效率,推动了 AI 应用的智能化与灵活性。

.NET 数据摄取与向量化架构:构建企业级检索增强生成(RAG)管道 - 张善友

张善友
张善友 · 2025-12-27T02:52:00Z
7个使用NumPy进行代码向量化的技巧

本文介绍了七种使用NumPy进行代码向量化的技巧,以提高Python数据处理效率。这些技巧包括布尔索引、广播和np.where()等方法,帮助开发者避免使用循环,从而加速代码执行并提升可读性。

7个使用NumPy进行代码向量化的技巧

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-08T11:00:40Z
7个加速数值计算的NumPy技巧

本文介绍了七个使用NumPy加速数值计算的技巧,包括:用向量化操作替代循环、利用广播机制进行高效算术运算、使用np.where()进行条件逻辑、使用@进行矩阵乘法、利用np.dot()计算内积、使用np.random快速生成随机数据,以及用np.asarray()避免内存开销。这些技巧能显著提高大规模数据集的计算效率。

7个加速数值计算的NumPy技巧

MachineLearningMastery.com
MachineLearningMastery.com · 2025-09-16T12:00:35Z
为什么Python专家避免使用循环:向量化思维的温和指南

向量化操作是高效优雅的Python代码的关键,能够同时处理整个数据集,显著提升速度和可读性。使用NumPy等库可以简化操作,降低开销,适合大数据集。

为什么Python专家避免使用循环:向量化思维的温和指南

KDnuggets
KDnuggets · 2025-07-24T14:00:38Z

xxHash3和wyhash是两种高效的哈希函数。xxHash3通过多个累加器并行处理,优化长输入的性能;wyhash则利用简单的乘法操作实现高效混合。两者在短键处理上表现优异,尤其是wyhash,代码简洁且性能接近最优。

向量化哈希:xxHash3 与 wyhash 的 SIMD 实现

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2025-07-15T00:00:00Z
NumPy忍术:掌握高性能机器学习的数组操作

本文介绍了NumPy库在高性能机器学习中的应用,强调了通过向量化、广播和矩阵乘法等技术优化数组操作,以有效处理大规模数据并提升计算效率。文章还展示了如何使用NumPy进行激活函数、标准化、行选择和概率分类等操作,帮助开发者提高机器学习工作流的性能。

NumPy忍术:掌握高性能机器学习的数组操作

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-04T12:00:20Z
词嵌入与文本向量化的温和介绍

文章介绍了词嵌入和文本向量化的基本概念,强调计算机如何通过数字表示理解人类语言。文本向量化将文本转换为机器可处理的数字形式,常见方法包括独热编码、词袋模型和TF-IDF。词嵌入通过学习低维表示捕捉词语之间的语义关系。现代上下文嵌入模型如ELMo和BERT,能够根据上下文动态生成词向量,提高自然语言处理的准确性和效率。

词嵌入与文本向量化的温和介绍

MachineLearningMastery.com
MachineLearningMastery.com · 2025-05-23T13:59:44Z
汉斯-尤尔根·肖宁:pgai:将维基百科导入PostgreSQL

本文介绍了如何将维基百科数据导入PostgreSQL数据库,利用pgai扩展进行数据加载和文本嵌入。通过创建向量化器,将维基百科文本转换为向量,以便进行语义搜索和机器学习,最终生成的视图简化了数据访问。

汉斯-尤尔根·肖宁:pgai:将维基百科导入PostgreSQL

Planet PostgreSQL
Planet PostgreSQL · 2025-04-08T05:00:00Z

本文介绍了检索增强生成(RAG)的基本概念及其在LangChain框架中的应用,包括文档加载、文本分割、向量化和向量存储等关键技术。通过实例代码,展示了如何构建员工工作指南检索系统和多轮对话查询,并讨论了企业级RAG构建的注意事项。

【LangChain】一文读懂RAG基础以及基于langchain的RAG实战

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-04-02T06:25:23Z

本文介绍了检索增强生成(RAG)的基本概念及其在LangChain框架中的应用。RAG结合语言模型与外部知识库,克服了模型对固定训练数据的依赖。文章详细描述了RAG的流程,包括文档加载、文本分割、向量化、向量存储与检索,并提供了实际代码示例,以帮助读者理解RAG的实现过程。

【LangChain】一文读懂RAG基础以及基于langchain的RAG实战

京东科技开发者
京东科技开发者 · 2025-04-02T03:22:47Z

本文介绍了如何在spring-ai-hunyuan项目中新增向量化功能,包括对接腾讯API、修改HunYuanAPI类以支持不同接口调用、处理输入输出参数,并完成Spring Boot的自动配置,以确保向量化功能与其他模块协同工作。

Spring AI 增加混元 embedding 向量功能 - 努力的小雨

努力的小雨
努力的小雨 · 2025-03-31T01:10:00Z

本研究提出了VecTrans框架,旨在解决大型语言模型(LLM)在编译器优化中的向量化挑战。该框架通过识别并重构潜在的向量化代码区域,结合编译器的精确性与LLM的适应性,显著提升了性能。实验表明,VecTrans成功向量化了46%的传统编译器无法处理的例子,平均速度提升2.02倍。

VecTrans: A Framework for Improved Auto-vectorization of LLMs on High-performance CPUs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z
语义搜索 - 新的前沿

语义搜索通过向量化数据改变了信息检索方式,利用嵌入模型(如Word2Vec、BERT)捕捉文本和图像的潜在意义,并通过相似度度量(如余弦相似度)进行比较。其应用包括搜索引擎、推荐系统和客户服务,提升了结果的相关性和处理复杂查询的能力。尽管面临计算成本和模型偏见等挑战,语义搜索在各领域展现出创新潜力。

语义搜索 - 新的前沿

DEV Community
DEV Community · 2025-01-25T01:27:45Z
如何提升RAG模型的性能

文章讨论了如何优化RAG系统以提高效率。通过提高向量化精度、整合多数据源和选择合适的生成模型来提升性能,但需权衡计算和存储成本,按需定制以实现最佳效果。

如何提升RAG模型的性能

KDnuggets
KDnuggets · 2024-09-27T12:15:35Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码