小红花·文摘

刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA

量子位 ·

陈丹琦加入Mira公司，因好友Neal Wu也在此。Neal是三次IOI金牌得主，曾参与Devin项目，展现出卓越编程才能。Mira团队汇聚顶尖人才，估值达500亿美元，备受行业关注。

陈丹琦入职Mira翁荔公司，原来是有IOI三金王赛友

量子位 ·

Thinking Machines Lab发布了Tinker，简化了大模型微调过程，使研究人员能够更灵活地控制算法和数据。Tinker支持Qwen3和Llama3模型，降低成本并提高实验效率，受到业界关注，旨在吸引更多人参与前沿研究。

Murati翁荔陈丹琦公司发布首个产品，让大模型微调门槛暴降

量子位 ·

Thinking Machines公司发布了关于“模块化流形”的论文，旨在提升神经网络训练的稳定性和效率。研究通过对权重矩阵施加流形约束，解决训练不稳定问题，优化算法表现优于传统方法，预计将提高大型模型的训练效率。

翁荔陈丹琦加盟的840亿AI公司，公开第二篇论文

量子位 ·

陈丹琦可能加盟由前OpenAI CTO创办的神秘AI公司Thinking Machines。她目前是普林斯顿大学副教授，曾获多项荣誉。尽管消息尚未确认，但她的GitHub邮箱与Thinking Machines相关，引发外界关注。

陈丹琦有了个公司邮箱，北大翁荔同款

量子位 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，简化了数据爬取流程。

陈丹琦，入职Thinking Machines Lab了？

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

Cache Me If You Can：陈丹琦团队如何「抓住」关键缓存，解放LLM内存？

机器之心 ·

哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出当前最强形式化推理模型

机器之心 ·

陈丹琦团队的LONGPROC基准测试显示，尽管许多大模型声称支持32K tokens，但在生成复杂长文时表现不佳。实验发现，GPT-4o等模型在8K tokens任务中的性能显著下降，尤其在需要长推理的旅行规划任务中仍有改进空间。

打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度

量子位 ·

少用33％数据，模型性能不变，陈丹琦团队用元数据来做降本增效

机器之心 ·

陈丹琦团队提出的MeCo预训练方法通过引入元数据，减少了33%的训练数据，同时保持了大模型的性能。该方法在不同模型规模和数据源下均表现出一致的性能提升，显著加快了预训练过程，为语言模型的引导提供了新思路。

陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

量子位 ·

陈丹琦等人组织的COLM奖项公布：被ICLR拒稿的Mamba入选杰出论文

机器之心 ·

团队通过复现经典聊天机器人ELIZA来揭开Transformer模型的神秘面纱。他们使用注意力机制和模式匹配规则实现了ELIZA算法，并发现了Transformer模型在处理对话任务时的行为和学习机制。研究还发现，Transformer模型倾向于根据对话内容的相似性来选择回答，而非严格按照词出现的位置来复制。该研究为自动可解释性提供了新思路，并为大语言模型研究提供了一个受控的理想化环境。

陈丹琦团队揭Transformer内部原理：另辟蹊径，从构建初代聊天机器人入手

量子位 ·