Planet PostgreSQL ·

Greg Richardson：pgvector：维度越少越好

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

在AI应用中，嵌入是确定语义相似性的核心工具。Supabase支持使用pgvector扩展在Postgres中存储嵌入。pgvector提供了索引来解决相似性查询的性能问题。目前，pgvector支持IVF索引，未来将支持HNSW索引。98%的客户使用text-embedding-ada-002模型生成文本嵌入，该模型具有1536个维度。

🎯

关键要点

嵌入是AI应用中确定语义相似性的核心工具。
Supabase支持使用pgvector扩展在Postgres中存储嵌入。
pgvector提供了向量数据类型和三种距离度量方法：内积、余弦距离和欧几里得距离。
pgvector通过索引解决相似性查询的性能问题，目前支持IVF索引，未来将支持HNSW索引。
98%的客户使用OpenAI的text-embedding-ada-002模型生成文本嵌入，该模型具有1536个维度。
较大的向量会导致存储和计算成本增加，1M个向量的原始数据可达11GB。
在实际应用中，索引可以将距离计算的数量从100%减少到5-20%。
Hugging Face对文本嵌入模型进行了基准测试，比较了多种模型的性能。
模型的维度大小与性能之间没有明显的相关性，较小维度的模型在某些任务上表现良好。
较少的维度可以提高查询速度和减少内存占用。
选择嵌入模型时需考虑相似性性能、模型大小、序列长度、维度大小和语言支持等因素。
使用较低维度的嵌入模型可以改善开发者在pgvector上面临的挑战。
使用替代嵌入模型不会影响使用OpenAI进行文本或聊天生成的能力。
降维技术如PCA和t-SNE可能会导致重要语义信息的丢失，风险需谨慎考虑。
Supabase正在努力简化使用开源、高性能、低维度嵌入模型生成嵌入的过程。

🏷️

继续阅读

人工智能如何帮助改善澳大利亚偏远地区的心脏健康
澳大利亚医疗系统优秀，但偏远地区心脏病死亡率高达60%。谷歌与健康组织合作，利用AI识别社区健康风险，推动个性化护理，计划在偏远地区进行5万次健康筛查，以改善健康状况。
云端养虾不花钱？阶跃 StepClaw 来真的
阶跃推出免费的StepClaw，提供5万个名额，包含5000万token和云服务，用户可轻松配置AI助手。虽然免费期仅一个月，但为用户提供了良好的体验。
2026年数据科学入门工具包：首先学习什么（以及忽略什么）
Python已成为大数据和深度学习的首选语言，具有良好的生产和可扩展性。R语言在统计分析和可视化方面依然强大，广泛应用于学术和研究领域。
她不爱他
文章反思了一个人对母亲冷漠态度的感受。他回忆与母亲的关系，感到被忽视和不公，最终意识到母亲从未真正关心他和家庭。对话中揭示了内心的失落与冷漠。
OpenClaw v2026.3.11修改定时任务规则升级后需修复否则可能收不到消息
OpenClaw v2026.3.11 更新了定时任务规则，需手动运行 doctor 命令进行迁移。更新后，智能体的通知权限收紧，需遵循新规则，以避免重复...
从 FAST26 SPECFS 看新时代 infra 开发者工作范式
本文讨论了论文《Sharpen the Spec, Cut the Code》的重要性，强调大型语言模型（LLM）在基础设施开发中的应用。研究表明，采用结...

Greg Richardson：pgvector：维度越少越好

内容提要

关键要点

标签

继续阅读