BriefGPT - AI 论文速递 ·

第二届BabyLM挑战赛的发现：在发展上可行的语料上进行样本高效预训练

📝

内容提要

本研究聚焦于缩小人类与计算语言学习者之间的数据效率差距。通过优化在固定语言数据预算下的语言模型训练，研究发现采用混合因果掩蔽语言模型架构的提交成果优于其他方法，尽管在多模态轨道中无一超越基线。这一结果强调了在图像-文本建模领域的创新潜力，以及社区驱动研究在小规模语言建模中的重要性。

➡️

全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
国家科学基金会续资麻省理工学院主导的人工智能与物理学研究所，扩展新的发现模式
麻省理工学院主导的人工智能与基础相互作用研究所（IAIFI）获得国家科学基金会续资，年资助额从400万美元增至498万美元。IAIFI致力于将人工智能与物...
The latest AI news we announced in May 2026
May AI recap
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
MAHA希望将棉花打造成新的牛脂
美国农业部推出“伟大的美国棉花计划”，旨在推广本土棉花，支持农民和国内制造业。尽管消费者对天然纤维服装的兴趣上升，但棉花生产面临高成本和化学品使用问题，且...