小红花·文摘 - 小红花技术领袖俱乐部

emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

HyperAI超神经 ·

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

量子位 ·

$Ψ0——人形全身VLA：先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM，再后训练MM-DiT，最后用AMO做下肢RL跟踪$

Ψ0——人形全身VLA：先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM，再后训练MM-DiT，最后用AMO做下肢RL跟踪

结构之法算法之道 ·

$X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA：VLM做多模态感知，DiT-style做动作生成$

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA：VLM做多模态感知，DiT-style做动作生成

结构之法算法之道 ·

$DualVLN——基于像素目标点的双系统VLN基础模型：VLM做全局规划且预测中期路径，DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹$

DualVLN——基于像素目标点的双系统VLN基础模型：VLM做全局规划且预测中期路径，DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

结构之法算法之道 ·

DiT-Air：重新审视文本到图像生成中扩散模型架构设计的效率

DiT-Air：重新审视文本到图像生成中扩散模型架构设计的效率

Apple Machine Learning Research ·

Crazy Time Live van Evolution – Waar je dit popul […]

Crazy Time Live van Evolution Waar je dit populaire live dealerspel kunt spelen.203

运维派 ·

MySQL是流行的关系型数据库管理系统，广泛应用于WEB开发。Linux是开源操作系统，Shell脚本用于简化管理。Docker用于开发和运行应用，Tomcat是轻量级Web服务器。Jenkins是持续集成工具，Redis和memcached是高效的数据库和缓存系统。Kubernetes在云计算运维中至关重要，帮助管理容器化应用。

Crazy Time Live van Evolution Waar je dit populaire live dealerspel kunt spelen.45

运维派 ·

Stort udvalg af spilleautomater og live casino – er htt […]

Stort udvalg af spilleautomater og live casino – er httpsverdekaszino.orgda dit nye heldige sted med

运维派 ·

字节跳动的InfinityStar方法在视频生成方面超越了DiT，速度提升10倍，单GPU可在一分钟内生成5秒720p视频。其核心在于时空金字塔建模，结合静态与动态信息，提高了生成效率和质量。

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频 | NeurIPS’25 Oral

量子位 ·

AnimeColor：基于DiT的动漫视频上色 | ACM MM 2025

AnimeColor：基于DiT的动漫视频上色 | ACM MM 2025

实时互动网 ·

本文探讨了大型行为模型（LBM）在波士顿动力人形Atlas中的应用，强调其在复杂任务中的表现。LBM通过多任务数据集训练，提升了机器人在动态环境中的自主互动能力。研究表明，LBM在微调新任务时仅需少量数据，并且在应对环境变化时表现更为稳健。尽管取得了一定进展，仍面临评估标准化和数据收集等挑战。

LBM——大型行为模型助力波士顿人形Atlas完成多任务灵巧操作：CLIP编码图像与语义，之后DiT去噪扩散生成动作

结构之法算法之道 ·

DiT模型受到质疑，网友认为其数学和形式上存在错误，甚至怀疑是否使用了Transformer。作者谢赛宁回应称，科学进步需要发现模型的不足，强调实证方法的重要性，并反驳质疑，指出Tread模型与DiT无关，且DiT在生成效果上仍具优势。

DiT突遭怒喷，谢赛宁淡定回应

量子位 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

告别Transformer！北大、北邮、华为开源纯卷积DiC：3x3卷积实现SOTA性能，比DiT快5倍！

机器之心 ·

普林斯顿大学与Meta合作推出LinGen框架，通过MATE模块将视频生成复杂度降低至线性，显著提升生成效率。LinGen在视频质量上优于DiT，生成速度最高可加速15倍，且适应性强，能处理更长的token序列。

单GPU搞定高清长视频生成，效率×10！引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

量子位 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，简化数据爬取流程。

李飞飞团队新作：DiT不训练直接改架构，模型深度减半，质量还提高了

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

智象未来x商汤大装置：全栈赋能全球首个开放使用视频生成DiT模型

机器之心 ·

智象未来推出全球首个开放使用的DiT模型，依托商汤强大的AI基础设施，实现快速模型迭代。该模型高效、灵活、稳定，广泛应用于影视和教育领域，推动文生视频技术发展。

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

量子位 ·

EC-DIT：通过自适应专家选择路由扩展扩散变换器

EC-DIT：通过自适应专家选择路由扩展扩散变换器

Apple Machine Learning Research ·