小红花·文摘

智谱AI推出新模型GLM-4.7-Flash，参数300亿，激活仅30亿，适用于本地编程和智能助手。该模型在代码修复测试中表现优异，支持200K上下文窗口，兼容多平台，并可在苹果M5上运行。API免费开放，具备创意写作和翻译功能。

量子位 ·

$一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA)：让q跟最相关的k/v做注意力计算，以降低MLA的计算量$

结构之法算法之道 ·

在文章《Transformer升级之路：20、MLA好在哪里?（上）》中，我们对MLA相比常见MHA、GQA、MQA的一些变化分别做了消融实验，其中的变化包括“增大head_dims”、“Par...

科学空间|Scientific Spaces ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

机器之心 ·

MachineLearningMastery.com ·

DEV Community ·

本文总结了MHA、GQA、MQA和MLA等注意力结构的源码及其演变过程，涵盖多头注意力、前馈神经网络和层归一化等实现细节。

李文举 ·

机器之心 ·

DEV Community ·

机器之心 ·

DEV Community ·

硕鼠的博客站 ·

本文介绍了Open R1的开源内容及其复现R1训练流程的过程，包括GRPO实现、数据生成和评估。OpenR1-Math-220k数据集生成了22万条高质量数学推理数据，提升了模型性能。通过改进验证工具和使用奖励模型，确保了数据质量和推理能力。

结构之法算法之道 ·

本文探讨了DeepSeek从教育向科技转型的过程，重点关注V3和R1模型的开源内容及复现问题。尽管V3未开源核心训练数据，但仍具科研价值。Open R1复现了R1的前两个训练阶段，并提供相关代码和实现细节，以帮助更多人理解和应用这些技术。

结构之法算法之道 ·

DEV Community ·

DeepSeek V3将于2024年12月发布，凭借1/14的算力超越Llama 3.1 405B，采用多头潜在注意力和负载平衡策略，训练成本仅为558万美元，展现了国内AI领域的创新能力。

结构之法算法之道 ·

本文介绍了DeepSeek-V2中的MHA创新点，包括MLA降低KV Cache开销，FFN结构改为DeepseekMoE，以及MLA对Query和Key的压缩和RoPE编码。

结构之法算法之道 ·