ByteByteGo Newsletter ·

LinkedIn如何利用大型语言模型（LLM）为13亿用户提供服务

💡 原文英文，约2000词，阅读约需8分钟。

📝

内容提要

LinkedIn通过将五个独立的内容检索系统整合为一个基于大型语言模型（LLM）的系统，提升了信息推荐的效率和准确性。新系统利用LLM生成的嵌入向量，更好地理解用户兴趣和内容相关性，显著提高了模型的性能和响应速度，使用户能在短时间内获得更相关的内容推荐。

🎯

关键要点

LinkedIn将五个独立的内容检索系统整合为一个基于大型语言模型（LLM）的系统，以提高信息推荐的效率和准确性。
新系统通过LLM生成的嵌入向量，更好地理解用户兴趣和内容相关性，显著提高了模型的性能和响应速度。
传统的关键词系统依赖于表面文本重叠，而LLM系统能够理解主题之间的深层关系，尤其在新用户的冷启动场景中表现出色。
LinkedIn构建了一个“提示库”，将结构化数据转化为模板化文本序列，以便于LLM处理。
通过过滤用户的互动历史，仅保留积极参与的帖子，LinkedIn显著提高了模型的性能和训练效率。
LinkedIn的生成推荐模型（GR）将用户的互动历史视为一个序列，理解用户的长期兴趣和时间模式。
为了支持大规模的模型，LinkedIn投资了定制基础设施，确保模型在每个用户上都能高效运行。

🔎

延伸解读

系统整合的挑战与机遇

LinkedIn将五个独立的内容检索系统整合为一个基于大型语言模型（LLM）的系统，虽然简化了架构，但也带来了新的挑战。如何有效地训练LLM以理解结构化数据，以及如何在大规模用户中保持高效响应，都是需要解决的问题。整合后的系统在性能上有显著提升，但也需要持续优化以应对复杂的用户需求。

数据输入的重要性

在构建推荐系统时，数据的质量直接影响模型的表现。LinkedIn通过将用户互动历史中的无效数据过滤掉，仅保留积极参与的帖子，显著提高了模型的训练效率和准确性。这一策略强调了在数据驱动的模型中，信号的清晰度比数据量更为重要。

冷启动问题的解决方案

对于新用户，传统的推荐系统常常面临冷启动问题。LinkedIn的LLM系统通过理解用户的基本信息，能够在缺乏历史互动的情况下推测用户的潜在兴趣。这种能力使得新用户能够更快地获得相关内容，提高了用户体验。

基础设施投资的必要性

LinkedIn在基础设施上的投资是其成功的关键因素之一。为了支持复杂的LLM模型，LinkedIn开发了定制的基础设施，以确保在每个用户上都能高效运行。这种投资不仅提升了模型的性能，也为大规模用户提供了稳定的服务保障。

❓

延伸问答

LinkedIn是如何提升信息推荐的效率和准确性的？

LinkedIn通过将五个独立的内容检索系统整合为一个基于大型语言模型（LLM）的系统，显著提高了信息推荐的效率和准确性。

LLM系统与传统关键词系统有什么区别？

LLM系统能够理解主题之间的深层关系，而传统关键词系统仅依赖于表面文本重叠，无法捕捉到更复杂的内容相关性。

LinkedIn是如何处理用户的互动历史以提高模型性能的？

LinkedIn通过过滤用户的互动历史，仅保留积极参与的帖子，从而显著提高了模型的性能和训练效率。

LinkedIn的生成推荐模型（GR）是如何工作的？

GR模型将用户的互动历史视为一个序列，理解用户的长期兴趣和时间模式，从而提供更相关的内容推荐。

LinkedIn如何确保其推荐系统在大规模用户中高效运行？

LinkedIn投资了定制基础设施，采用共享上下文批处理和多门专家混合模型（MMoE）来高效处理用户历史和候选内容。

LLM在处理结构化数据时遇到了什么挑战？

LLM系统需要将结构化数据转化为文本序列，这一过程涉及到如何有效地将数值特征转化为模型可理解的格式。

🏷️