Dejavu's Blog ·

Deploying the Gemma 4 Model on Oracle ARM Instances

💡 原文英文，约1400词，阅读约需5分钟。

📝

内容提要

本文介绍了一种在Oracle ARM硬件上运行的大型语言模型（MoE），该模型拥有260亿参数，但每次生成仅激活40亿参数。性能估计显示，输入处理速度为150-400个令牌每秒，输出生成速度为3-8个令牌每秒，主要受内存带宽限制。建议通过优化线程设置和使用Flash Attention来提高效率。

🎯

❓

Gemma 4模型拥有260亿参数，但每次生成仅激活40亿参数。

输入处理速度为150-400个令牌每秒。

输出生成速度主要受内存带宽限制，速度为3-8个令牌每秒。

建议通过优化线程设置和使用Flash Attention来提高效率。

该模型在4位量化下大约需要14-16GB的RAM。

计算瓶颈主要是内存带宽和CPU核心数量的限制。

🏷️

Gamification or Manipulation? Understanding the Ethics of Engagement Loops
Part 6 of the “Ethical UX Series.” “The only way to win is not to play.” — Jo...
下一代OpenClaw来了？“龙虾之父”称将率先支持阿里千问
“龙虾之父”彼得·斯坦伯格宣布下一代OpenClaw将支持阿里千问大模型，并加入视频生成功能。阿里近期推出多款新模型，引发全球AI热潮。
持续霸榜！阿里千问3.6Plus问鼎全球大模型调用周榜冠军
阿里千问3.6-Plus在OpenRouter周榜中夺冠，成为全球大模型调用量冠军，单日调用量突破1万亿Token。该模型在编程能力上排名中国第一，阿里位...
微软的免责条款真直接：微软称Copilot仅供娱乐用途使用风险自负
微软的Microsoft Copilot仅供娱乐，用户需自行承担风险。由于AI可能出错，微软在使用条款中明确免责声明，强调用户对生成内容负责。
帮助数据中心以更少的硬件实现更高的性能
麻省理工学院研究人员开发的Sandook系统，通过同时处理存储设备性能的三种变异源，显著提升数据中心效率。该系统采用双层架构，中央控制器优化任务分配，局部...
Desktoptop 3.1多屏版，中文名：这他妈才叫桌面多屏版！
开发者@dog推出了桌面增强软件Desktoptop 3.1多屏版，支持一键置顶桌面图标，提升多窗口间访问桌面的效率，适合多屏办公用户。