BriefGPT - AI 论文速递 ·

DeepSeek-V2: 一种强大、经济高效的专家混合语言模型

💡 原文中文，约400字，阅读约需1分钟。

📝

内容提要

通过研究扩展定律，发现DeepSeek LLM在7B和67B两种开源配置下用于扩展大规模模型，并介绍了项目前景。DeepSeek LLM 67B在各种基准测试中超过LLaMA-2 70B，尤其在代码、数学和推理领域。开放式评估显示DeepSeek LLM 67B Chat优于GPT-3.5。

🎯

🏷️

使用Unsloth Studio合并语言模型
本文介绍了如何使用Unsloth Studio合并语言模型。Unsloth Studio是一个无代码的本地界面，支持多种流行模型。合并模型可以结合不同适配...
Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek
OpenMythos是一种新型的循环深度Transformer架构，采用MoE路由机制，通过跨专家权重共享实现高效推理。在参数量减少近一半的情况下，其性能...
DeepSeek融资别急着冲！100亿美金估值最危险的是退出难！
DeepSeek正在进行3亿美元融资，估值达到100亿美元。融资原因包括人才流失、监管收紧及V4发布压力。尽管估值看似合理，投资者需警惕退出困难，可能面临...
Git 2.54 版本亮点
The open source Git project just released Git 2.54. Here is GitHub’s look at ...
Birdfy的新款4K鸟食器希望教你识别它所识别的鸟类
Birdfy has announced a new version of its camera-equipped metal feeder with a...
卡普空出手整顿成人MOD，“上了PC穿什么”也由不得玩家了
玩家群体间流传一句话，叫作“上了PC穿什么就由不得你了”。意指一旦游戏登陆了开放的PC环境，玩家就可以通过MOD自由修改、调整游戏内容，到时候角色怎么穿、...