AMD Zen 5 微架构评测

AMD Zen 5 微架构评测

💡 原文中文,约10200字,阅读约需25分钟。
📝

内容提要

AMD Zen 5 微架构评测显示其性能显著提升,采用宏操作与微操作分解,优化指令执行。Op Cache 的动态测试表明其对性能影响显著,解码宽度限制和指令融合技术提升了 IPC,L1 和 L2 缓存容量测试验证了设计有效性。整体而言,Zen 5 在多线程和浮点性能上表现优异。

🎯

关键要点

  • AMD Zen 5 微架构性能显著提升,采用宏操作与微操作分解,优化指令执行。
  • Op Cache 动态测试表明其对性能影响显著,解码宽度限制和指令融合技术提升了 IPC。
  • L1 和 L2 缓存容量测试验证了设计有效性,Zen 5 在多线程和浮点性能上表现优异。
  • MOP(宏操作)和 uOP(微操作)的拆分在调度器中进行,最终给执行单元的是 uOP。
  • Op Cache 每个 entry 保存 6 条融合指令,实测显示其性能提升。
  • 关闭 Op Cache 后,性能下降到 4 IPC,验证了解码宽度的限制。
  • Zen 5 的解码管道为 2x 4-wide,但单线程情况下无法实现 8-wide 解码。
  • L1 ICache 和 L1 ITLB 的容量测试结果与官方信息一致,分别为 32KB 和 64-entry。
  • L2 ITLB 的容量为 2048-entry,测试结果与官方信息一致。
  • Return Address Stack 的大小为 52-entry,符合官方信息。
  • Zen 5 支持多种 Zero Cycle Move 和 Zeroing/Ones Idiom,性能表现良好。
  • 每周期最多支持 8 MOP,且每个线程可处理 1-2 MOP。
  • 物理寄存器堆的测试结果显示整数和浮点寄存器的数量与官方信息相符。
  • L1 DCache 的容量为 48KB,命中时的延迟为 4 个周期。
  • Store to Load Forwarding 实现较为简单,仅支持完全包含的情况。
  • L1 DTLB 和 L2 DTLB 的容量分别为 96-entry 和 4096-entry,性能测试结果一致。
  • Zen 5 后端有 6 条 ALU 流水线,支持高峰值浮点性能。
➡️

继续阅读