李沐重返母校上海交大,从LLM聊到个人生涯,这里是演讲全文

李沐重返母校上海交大,从LLM聊到个人生涯,这里是演讲全文

💡 原文中文,约14200字,阅读约需34分钟。
📝

内容提要

李沐在上海交大分享了关于语言模型和个人生涯的演讲,讲述了语言模型的算力、数据和算法三个方面,以及硬件、数据和算法未来的发展。他还提到了预训练和后训练的区别,以及垂直模型和评估的重要性。分享了自己的打工人、读博士和创业的经历,以及持续提升自己的方法。鼓励大家抓住当前技术带来的机会,付出更多努力。

🎯

关键要点

  • 李沐在上海交大分享了关于语言模型和个人生涯的演讲。
  • 语言模型的核心要素包括算力、数据和算法。
  • 数据的获取是一个艰苦的过程,需要大量的材料。
  • 算力和硬件的进步对模型的性能至关重要。
  • 未来几年,算力、内存和带宽将会有显著的发展。
  • 内存大小将限制模型的规模,而算力价格长期来看会逐渐降低。
  • 语言模型的参数规模将主要集中在100B到500B之间。
  • 语音模型的技术进步使得信息传递更丰富、延迟更低。
  • 音乐生成的商业化面临版权问题,而图像生成技术已经取得显著进展。
  • 多模态模型整合不同类型的信息,未来将通过文本指令控制生成。
  • AI在文科白领、工科白领和蓝领工作中的应用潜力不同。
  • 李沐分享了自己在大公司、读博士和创业的经历,强调了不同阶段的目标和挑战。
  • 创业需要强烈的动机和对复杂社会的理解。
  • 持续提升自我的方法包括定期总结和反思个人目标。
  • 当前是一个充满机会的时代,但需要付出更多努力才能获得成功。
➡️

继续阅读