橘子汽水铺 ·

如果人生就是一场强化学习，你的奖励函数是什么？

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

吴翼在播客中探讨了强化学习与人生的关系，指出人生的奖励函数不明确，需主动探索和试错。他提倡追求多样性和熵值最大化，避免终局思维，保持开放心态，探索个人价值与意义。

🎯

🔎

吴翼强调，人生的奖励函数并不明确，可能是财富、成就或内心的宁静。理解这一点有助于我们在追求目标时保持灵活性，避免盲目追求社会普遍认可的成功标准。每个人都应主动探索，找到适合自己的奖励函数。

追求熵值最大化意味着在生活中保持多样性，避免陷入单一的生活模式。吴翼提到，年轻时多尝试不同的经历是有价值的，这不仅能丰富人生体验，还能帮助我们更好地定义自己的目标和价值观。

吴翼指出，创业公司不应有终局思维，因为机会往往在终局到来之前。创业者应保持开放心态，灵活应对市场变化，抓住瞬息万变的机会。这样的思维方式有助于在快速发展的领域中找到立足之地。

❓

人生的奖励函数可能是财富、成就或内心的宁静等目标。

找到人生奖励函数的关键在于主动探索和试错，尤其在年轻时多尝试。

强化学习没有标准答案，决策过程充满不确定性，而传统机器学习通常有明确的答案。

熵值最大化指在有限条件下保持人生的多样性，避免过早固化。

创业公司的机会往往在终局到来之前，过于关注终局可能导致错失机会。

吴翼分享了人生与强化学习的关系，强调探索、试错和追求多样性的重要性。

🏷️