极道 ·

可组合数据系统之路：对过去15年和未来的思考

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

韦斯·麦金尼回顾了数据科学工具的发展，提到了Apache Arrow、Ibis、RAPIDS、DuckDB和Velox等项目，讨论了数据交换、查询处理和编程接口的模块化，以及硬件加速和数据分析的中间表示的重要性。他预测未来几年将有更多投资在用户界面生产力方面。

🎯

关键要点

韦斯·麦金尼回顾了数据科学工具的发展，强调了数据科学的“Python化”趋势。
Pandas在大规模云分析服务中遇到性能和内存使用的限制，促使对基础设施的重新思考。
提出了在数据库和数据框架之间实现更好的互操作性和模块化的愿景。
计算硬件的演变推动了数据分析工具的发展，特别是ML/AI生态系统的影响。
介绍了Apache Arrow、Ibis、RAPIDS、DuckDB、Velox等开源项目，强调它们在数据交换和查询处理中的重要性。
Apache Arrow作为独立于语言的计算和数据交换层，促进了系统间的互操作性。
RAPIDS利用GPU加速数据分析和机器学习，推动了GPU的更广泛应用。
DuckDB和Velox等新型嵌入式数据库引擎提高了分析数据库的性能。
Ibis等项目结合了SQL和数据框架API，旨在提高数据分析的效率。
Substrait作为一种标准化的中间表示，旨在解决SQL方言碎片化的问题，促进模块化和互操作性。
未来几年将有更多投资集中在用户界面生产力方面，推动数据分析工具的进一步发展。

🏷️

标签

Apache Arrow DuckDB Ibis RAPIDS Velox 中间表示数据分析数据科学工具模块化用户界面生产力硬件加速

➡️

继续阅读

2026世界人工智能大会“未来计算·未来算力”专题论坛在沪召开，共识凝聚五问
IBM暴跌与中国信创的未来
IBM暴跌与中国信创的未来 IBM为何在2026年7月14日单日暴跌25.21%？这不是“中国信创战胜IBM”的简单故事。本文拆解IBM初步业绩、大型机...
IBM暴跌与中国信创的未来
IBM暴跌与中国信创的未来 IBM为何在2026年7月14日单日暴跌25.21%？这不是“中国信创战胜IBM”的简单故事。本文拆解IBM初步业绩、大型机...
2026 07 20 HackerNews
2026-07-20 Hacker News Top Stories # 阿里巴巴将开源2400亿参数Qwen 3.8模型，预览版已上线并与竞争...
AI 内存别只当概念看：它其实是状态管理问题
阮一峰周刊提到 AI 内存这个话题。比起把它看成模型能力，我更关心它在真实系统里的状态管理、隔离、回滚和观测问题。AI 应用想记住用户，先要能解释、能删除、能排查。
This unpronounceable series of glyphs is an incredible side project from Kieran Hebden (aka Four Tet)
Just why? ʅ͡͡͡͡͡͡͡͡͡͡͡(̸̢̛̼̞̭͋ͅ)̸͚̰͛̔̾̀̿͒͂:̴͓̞̑̌̂̆̊͋̀:̸͎̟̯̂̓̌　҉　　　　　͡　͞　͞　͞　҉...