小红花·文摘

上周五，OpenAI首席执行官萨姆·奥尔特曼的住宅遭到燃烧瓶袭击，周日凌晨又有人开枪射击。警方逮捕了两名嫌疑人，并找到了作案时使用的车辆和枪支。开枪动机尚不明确，可能与对奥尔特曼的针对性有关。奥尔特曼曾提到人们对人工智能的恐惧和焦虑。

模仿犯罪开始了？萨姆奥尔特曼住宅又被枪击两名犯罪嫌疑人已被逮捕

蓝点网 ·

$RL-100——基于真实世界RL的高性能灵巧操作：先基于人类演示做模仿学习预训练，再做迭代式离线RL，最后真机在线RL$

RL-100——基于真实世界RL的高性能灵巧操作：先基于人类演示做模仿学习预训练，再做迭代式离线RL，最后真机在线RL

结构之法算法之道 ·

$MetaWorld——分层世界模型：融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验，及基于模型RL的对动态环境的在线自适应$

MetaWorld——分层世界模型：融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验，及基于模型RL的对动态环境的在线自适应

结构之法算法之道 ·

放过保时捷，咱换一家抄好不好？

爱范儿 ·

文章探讨了傅高义的《邓小平与中国的转型》，强调“表演性制度学习”的重要性。Vogel分析了中国的制度学习，揭示了模仿与变形之间的张力，指出制度学习常常流于表面模仿，而非实质变革。这一过程反映了权力在现代化中如何维持稳定，开源现象也面临类似挑战。

傅高义先生的贡献对于开源之道的提示和警醒

「开源之道」 ·

视觉设计提升实用指南

宝玉的分享 ·

Edifier新推出的无线音箱外观模仿游戏PC

The Verge ·

通过模仿模型权重评估样本效用以进行数据选择

Apple Machine Learning Research ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

用动作分块突破RL极限，伯克利引入模仿学习，超越离线/在线SOTA

机器之心 ·

自6月以来，团队在招募新成员的同时加快项目进度，完成了VR和机械臂的遥控操作，开发了全身遥操系统TWIST，结合动作捕捉与强化学习，使人形机器人能够模仿人类动作。该系统通过高质量数据集和鲁棒控制器，提升了机器人在复杂任务中的表现。

TWIST——基于动捕的全身遥操模仿学习：教师策略RL训练，学生策略结合RL和BC联合优化

结构之法算法之道 ·

在中文圈，本站应该算是比较早关注线性Attention的了，在2020年写首篇相关博客《线性Attention的探索：Attention必须有个Softmax吗？》时，大家主要讨论的还是BERT...

线性注意力简史：从模仿、创新到反哺

科学空间|Scientific Spaces ·

本文介绍了KungfuBot，一种基于物理的人形机器人运动控制方法。该方法通过视频提取运动数据，筛选符合物理约束的动作，并利用自适应机制优化跟踪奖励，以实现机器人模仿人类动作的目标。研究者提出了双层优化框架，提升了机器人在复杂动态环境中的表现。

KungfuBot——基于物理约束和自适应运动追踪的人形全身控制PBHC，用于学习打拳或跳舞(即RL下的动作模仿和运控)

结构之法算法之道 ·

HOMIE是一种人形外骨骼驾驶舱，结合全身控制与远程操作，通过强化学习提升机器人行走和操作能力。系统包括外骨骼手臂、运动感应手套和踏板，支持高效精准控制，扩展机器人的操作空间。实验表明，HOMIE在复杂环境中表现优异，能够自主执行多样化任务。

HOMIE——遥操类似ALOHA主从臂的外骨骼驾驶舱收集数据：通过上肢模仿学习和全身控制RL训练自主策略

结构之法算法之道 ·

可预测性、预录现实与人工智能进化：从《迪尔伯特》到LivinGrimoire

DEV Community ·

本研究解决了缺乏多样化的类人面部表情数据集及相应注释的问题，从而促进了真实类人面部表情模仿的进展。通过引入X2C数据集（包括10万个(图像，控制值)对），以及X2CNet这一创新的人类到类人的面部表情模仿框架，实现了对细微类人表情及其控制值的学习，展示了在现实环境下进行类人面部表情模仿的潜力。

X2C：一个具有细微面部表情的真实类人模仿数据集

BriefGPT - AI 论文速递 ·

本文提出了一种新方法IN-RIL，旨在解决模仿学习与强化学习结合中的不稳定性和样本效率低下的问题。通过定期注入模仿学习更新，IN-RIL提高了探索效率，实验结果表明其在多任务中显著提升了样本效率，并减少了性能崩溃现象。

IN-RIL：用于策略微调的交替强化学习与模仿学习

BriefGPT - AI 论文速递 ·

在组织中，反对变革往往源于对改变的抵触。华与华指出，企业应优先关注已付费客户，提升他们的满意度，以降低获客成本。获客成本高可能是由于产品质量差、扩张过快或竞争对手的影响。创造价值和创新是关键，调研需深入了解消费者行为，关注现场故事，接受失败，专注顾客需求。

《华与华使用说明书》---成功主要是靠模仿

ljf ·

本研究针对自主驾驶系统设计中的关键挑战，尤其是如何在真实驾驶场景下提高深度神经网络的预测准确性和反应速度。通过对多种深度神经网络的设计与比较，研究揭示了逐步设计过程在自主驾驶应用中增强模型能力和处理多样驾驶情况的必要性。研究结果表明，改进的CNN-LSTM和CNN-NODE在动态驾驶表现上优于其他模型，展示了更好的驾驶性能。

基于模仿学习的自主驾驶：来自现实世界测试的洞见

BriefGPT - AI 论文速递 ·

本研究针对模仿学习在有限数据集上训练的策略难以超越训练分布的问题，提出了一种统一的泛化能力视角。通过信息论和数据分布特性，本研究揭示了泛化差距的上界，并提供了有效训练策略设计的理论指导，强调输入数据多样性和同一输入下输出标签变异性的结合，对于提升模仿学习的泛化能力具有重要影响。

模仿学习的泛化能力

BriefGPT - AI 论文速递 ·

本研究提出LUFFY框架，解决了零强化学习中的“在政策”限制，通过结合离政策示范与在政策训练，实现模仿与探索的动态平衡。LUFFY在六个数学基准测试中平均提升超过7.0，证明了其有效性，为训练通用推理能力模型开辟了新路径。

在离政策引导下学习推理

BriefGPT - AI 论文速递 ·

模仿犯罪开始了？萨姆奥尔特曼住宅又被枪击 两名犯罪嫌疑人已被逮捕

RL-100——基于真实世界RL的高性能灵巧操作：先基于人类演示做模仿学习预训练，再做迭代式离线RL，最后真机在线RL

MetaWorld——分层世界模型：融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验，及基于模型RL的对动态环境的在线自适应

放过保时捷，咱换一家抄好不好？

傅高义先生的贡献对于开源之道的提示和警醒

视觉设计提升实用指南

Edifier新推出的无线音箱外观模仿游戏PC

通过模仿模型权重评估样本效用以进行数据选择

用动作分块突破RL极限，伯克利引入模仿学习，超越离线/在线SOTA

TWIST——基于动捕的全身遥操模仿学习：教师策略RL训练，学生策略结合RL和BC联合优化

线性注意力简史：从模仿、创新到反哺

KungfuBot——基于物理约束和自适应运动追踪的人形全身控制PBHC，用于学习打拳或跳舞(即RL下的动作模仿和运控)

HOMIE——遥操类似ALOHA主从臂的外骨骼驾驶舱收集数据：通过上肢模仿学习和全身控制RL训练自主策略

可预测性、预录现实与人工智能进化：从《迪尔伯特》到LivinGrimoire

X2C：一个具有细微面部表情的真实类人模仿数据集

IN-RIL：用于策略微调的交替强化学习与模仿学习

《华与华使用说明书》---成功主要是靠模仿

基于模仿学习的自主驾驶：来自现实世界测试的洞见

模仿学习的泛化能力

在离政策引导下学习推理

模仿犯罪开始了？萨姆奥尔特曼住宅又被枪击两名犯罪嫌疑人已被逮捕