DEV Community ·

在多模态应用中使用的存储器计算技术——详细解析 ISSCC 2023 16.1 Multcim

💡 原文英文，约2000词，阅读约需8分钟。

📝

内容提要

清华大学和香港科技大学的研究提出了一种新的加速器设计，解决多模态Transformer模型在硬件执行时的稀疏性问题。通过优化调度器、令牌修剪器和自适应网络，提高了计算效率，减少了延迟。多模态模型在视觉问答和图像描述等领域有广泛应用，未来将进一步推动AI发展。

🎯

❓

多模态模型是能够理解来自不同模态（如视觉、语言、语音等）混合信号的神经网络模型。

主要挑战包括注意力稀疏性、令牌稀疏性和位稀疏性。

提出了长重用消除调度器（LRES），通过优化注意力矩阵的存储和利用来解决此问题。

RTP用于去除不重要的令牌，减少计算闲置和延迟。

EBB-CIM通过检测输入向量的有效位宽并进行位平衡处理，减少计算时间。

多模态模型在视觉问答、图像描述等领域有广泛应用，未来将推动AI的发展。

🏷️

谷歌发布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行
谷歌发布了Gemma 4 12B多模态模型，支持文本、图片、视频和音频输入，能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构，降低延迟并简化...
Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...
江波龙携全栈端侧AI存储应用参加COMPUTEX 2026
江波龙在COMPUTEX 2026展会上展示了全栈端侧AI存储新品，包括针对AI推理的AIDIMM和AILPBGA内存产品，解决了内存容量不足的问题。同时...
抵制基于网络的垃圾应用！微软鼓励开发者基于WinUI为Windows 11开发原生应用
微软将 WinUI 3 框架重命名为 WinUI，鼓励开发者为 Windows 11 开发原生应用，放弃基于 Web 技术的应用。微软承诺不再推出新 UI...
Christophe Pettus: All Your GUCs in a Row: data_checksums
A read-only preset, like block_size — SHOW data_checksums tells you whether t...
[MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间 - Artech
CachingChatClient是一个中间件，用于缓存LLM调用结果，减少重复调用的时间和费用。它通过检查缓存返回相同输入的响应，若不存在则调用LLM并...