小红花·文摘 - 小红花技术领袖俱乐部

普惠 DeepSeek-V4：Kthena + 昇腾 3 分钟搭建 PD 分离推理

普惠 DeepSeek-V4：Kthena + 昇腾 3 分钟搭建 PD 分离推理

华为云官方博客 ·

2025全球人工智能技术大会在杭州召开，京东零售与清华大学合作推出xLLM端云一体大模型推理架构，以提升AI推理性能，解决电商技术挑战。京东未来将加大对国产AI基础设施的投入，探索多智能体自进化和分布式推理等方向。

我在618主场，和3位顶尖技术博士聊了聊

京东科技开发者 ·

本研究提出了一种多层融合与推理架构（MFRA），旨在解决视觉与语言导航中的复杂多模态交互问题。MFRA通过层次化机制显著提高了代理在导航场景中的决策准确性，优于现有方法。

Hierarchical Thinking and Dynamic Action: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation

BriefGPT - AI 论文速递 ·

Kimi与清华大学等机构联合开源了大模型推理架构Mooncake，旨在提升推理性能和用户体验。该架构采用分离式设计，优化资源利用，已在GitHub获得1.2k星。Mooncake通过预测负载和早期拒绝策略处理高并发请求，显著提高吞吐量，支持Kimi线上80%以上的流量。

刚刚，Kimi开源底层推理框架，1小时GitHub揽星1.2k

量子位 ·

官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake

官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake

机器之心 ·

Leaked Technical Details of GPT-4

Leaked Technical Details of GPT-4

Enderfga's blog ·