谷歌推出了Gemini 3 Flash,这是最新的AI模型,具备快速推理能力,已在全球搜索中上线,提升了AI性能,能更精准地回答复杂问题。同时,Gemini 3 Pro和Nano Banana Pro在美国扩大使用范围,提供动态视觉布局和图像生成工具,帮助用户理解复杂主题。
瑞安与Groq首席工程师本杰明·克里格讨论了AI代理基础设施,如何将一分钟的代理缩短至十秒,以及利用快速推理和有效评估构建高效复合代理。Groq通过定制LPU芯片实现快速、低成本推理。
腾讯混元推出四款小尺寸开源模型,参数分别为0.5B、1.8B、4B和7B,适用于手机和低功耗设备。这些模型具备快速推理和高性价比,支持复杂任务处理,并已在多个应用中验证其实用性。模型的上下文窗口可处理超长内容,提升了多行业的应用潜力。
该研究提出了一种名为Infini-attention的新技术,可以将Transformer模型扩展到无限长输入,同时保持有限的内存和计算。通过结合压缩记忆、局部注意力和长期线性注意力,该方法在长文本建模和大规模任务中表现优异,实现了快速推理。
本文提出了一种基于普通微分方程的线性扩散模型(LinDiff),旨在实现快速推理和高采样质量,并通过基于补丁的处理方法减少计算复杂性和实现嘈杂语音的有效全局建模。使用对抗性训练进一步改善样本质量,并在Mel-声谱图上进行了条件语音合成测试。实验结果表明,即使只有一个扩散步骤,该模型也能合成高质量的语音,且合成速度更快,质量与自回归模型相媲美。
本文提出了一种基于普通微分方程的线性扩散模型(LinDiff),用于快速推理和高采样质量。通过补丁处理方法减少计算复杂性和实现嘈杂语音的全局建模。使用对抗性训练改善样本质量,并在条件语音合成中进行测试。实验结果表明,该模型可以合成高质量语音,速度更快。
本文提出了构建高分辨率显著性目标抠图数据集 HRSOM 和轻量级网络 PSUNet 的方法,解决了现有显著性目标检测方法在高分辨率场景中无法同时满足快速推理和准确结果的问题。该方法在单个 640×640 像素图像上运行的推理时间仅为 113 毫秒,并在模型客观评估和主观评估方面优于行业标杆 IOS16。
完成下面两步后,将自动完成登录并继续当前操作。