量子位 ·

翁荔陈丹琦加盟的840亿AI公司，公开第二篇论文

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

Thinking Machines公司发布了关于“模块化流形”的论文，旨在提升神经网络训练的稳定性和效率。研究通过对权重矩阵施加流形约束，解决训练不稳定问题，优化算法表现优于传统方法，预计将提高大型模型的训练效率。

🎯

关键要点

Thinking Machines公司发布了关于模块化流形的论文，旨在提升神经网络训练的稳定性和效率。
研究通过对权重矩阵施加流形约束，解决训练不稳定问题。
模块化流形概念将神经网络的不同层/模块在统一框架下进行约束和优化。
权重、激活值、梯度的数值过大或过小会导致训练不稳定，需进行归一化处理。
对权重矩阵进行归一化处理可以提高模型训练的稳定性和可预测性。
作者提出了一种新的优化思路——模块化流形，设计了适用于Stiefel流形的优化算法。
小规模实验表明，模块化流形算法在训练准确率上优于传统算法，但运行时间稍慢。
模块化流形概念允许每个模块有自己的优化方法，同时通过全局机制保持协调和稳定。
论文作者Jeremy Bernstein在机器学习领域有丰富的研究背景，涉及算法优化和模型鲁棒性等方面。
Thinking Machines公司已发布两篇研究论文，显示出其在AI领域的快速发展和潜力。

❓

延伸问答

模块化流形的研究目的是什么？

模块化流形的研究旨在提升神经网络训练的稳定性和效率，解决训练不稳定的问题。

如何通过流形约束提高神经网络的训练稳定性？

通过对权重矩阵施加流形约束，可以避免权重的范数过大，防止训练不稳定，从而提高模型的稳定性和可预测性。

模块化流形算法与传统算法相比有什么优势？

模块化流形算法在训练准确率上优于传统算法，但运行时间稍慢，能够更好地处理权重矩阵的稳定性。

论文作者Jeremy Bernstein的背景是什么？

Jeremy Bernstein在剑桥大学和加州理工学院接受教育，专注于计算与神经系统，目前在Thinking Machines和MIT从事研究。

模块化流形的概念如何影响神经网络的训练？

模块化流形将每个模块视为独立的流形，通过全局机制协调更新，提升整个网络的训练效率和稳定性。

Thinking Machines公司在AI领域的表现如何？

Thinking Machines公司已发布两篇研究论文，显示出其在AI领域的快速发展和潜力，估值已达840亿元人民币。

🏷️

继续阅读

每家公司的首个人工智能战略都应该是技能库
企业在实施人工智能时，首要任务是建立“技能图书馆”，记录优秀员工的工作流程和经验，将其转化为可重复使用的技能，以提升AI的实用性和效率，帮助公司更好地利用人工智能。
[MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间 - Artech
CachingChatClient是一个中间件，用于缓存LLM调用结果，减少重复调用的时间和费用。它通过检查缓存返回相同输入的响应，若不存在则调用LLM并...
这家人工智能初创公司声称能够判断一个剧本是否会成为热门电影
AI初创公司Quilty声称通过剧本分析预测电影票房成功，但实际测试结果不佳，预测不准确。Quilty结合多种AI工具提供剧本分析和成功概率评分，旨在帮助...
有人靠CPU把AI算力密度卷到了新高度
英特尔推出新技术以应对Agentic AI的算力焦虑，提升AI算力密度，推动数据中心和AI的发展。
您的AI费用失控了。Cloudflare现在可以解决这个问题。
Cloudflare推出AI Gateway，帮助企业控制AI支出。新功能包括预算限制和身份驱动的支出管理，允许按用户、团队或模型设置预算。通过集中管理，...
2026年数据与AI峰会：金融服务领导者的内部指南
2026年数据与AI峰会将于6月15日至18日在旧金山举行，聚焦金融服务行业的AI转型与现代化，主要议题包括保险承保、负责任的AI应用及资本市场智能化。与...