The New Stack ·

当你的数据模型成为瓶颈：来自Medium特征存储的经验教训

💡 原文英文，约2000词，阅读约需7分钟。

📝

内容提要

Medium通过改进数据模型，优化了推荐系统的性能，采用列表特征简化数据存储和查询，提升操作效率。与DynamoDB相比，ScyllaDB在延迟和性能上表现更佳，Medium计划在更多工作负载中使用ScyllaDB。

🎯

🔎

Medium的经验表明，数据模型的设计对系统性能至关重要。一个不理想的数据模型可能导致查询效率低下，进而影响用户体验。因此，在构建系统之前，花时间思考和设计数据模型是非常必要的。

在Medium的基准测试中，ScyllaDB在延迟和性能上明显优于DynamoDB，尤其是在高负载情况下。虽然DynamoDB也表现出色，但ScyllaDB的稳定性和可预测性使其更适合Medium的需求。

Medium通过采用基于列表的特征模型，显著提高了数据存储和查询效率。这种方法允许在单个查询中检索所有相关数据，避免了多次查询的低效，提升了推荐系统的响应速度。

❓

Medium通过处理用户活动信号，重新设计数据模型，采用基于列表的特征模型来提高数据存储和查询效率，从而优化推荐系统。

Medium选择ScyllaDB是因为其在延迟和性能上优于DynamoDB，尤其是在高负载情况下表现更为稳定。

新数据模型允许在单个查询中检索与实体相关的所有数据，避免了多次查询的低效，提高了查询效率。

Medium将用户的阅读历史存储为列表特征，包含故事ID和阅读时间戳，支持高效的读取和删除操作。

Medium最初使用关系特征进行数据建模，但这种方法在查询效率上存在问题，导致需要多次查询才能获取数据。

特征存储系统整合用户活动和内部事件，支持机器学习模型的推荐功能，提供个性化的内容推荐。

🏷️