小红花·文摘

Google Research unveiled TurboQuant, a novel quantization algorithm that compresses large language models’ Key-Value caches by up to 6x. With 3.5-bit compression, near-zero accuracy loss, and no...

Google’s TurboQuant Compression May Support Faster Inference, Same Accuracy on Less Capable Hardware

InfoQ ·

Madelyn Olson discusses the evolution of Valkey's data structures, moving away from "textbook" pointer-chasing HashMaps to more cache-aware designs. She explains the implementation of "Swedish"...

Presentation: When Every Bit Counts: How Valkey Rebuilt Its Hashtable for Modern Hardware

InfoQ ·

译: Hardware Memory Models (Memory Models, Part 1)

Steins;Lab ·

本研究探讨了DeepSeek-V3在扩展大型语言模型时的硬件限制，并提出了一种新颖的硬件感知模型设计方法。通过引入多头潜在注意力机制和FP8混合精度训练，DeepSeek-V3实现了高效的训练和推理，推动了下一代AI系统的发展。

In-Depth Exploration of DeepSeek-V3: Scaling Challenges and Hardware Reflections on AI Architectures

BriefGPT - AI 论文速递 ·

本研究展示了一种新型量子回声状态网络（QESN），用于在噪声环境中预测混沌状态。实验结果表明，该方法在长期时间序列预测中表现优异，显示了量子计算在机器学习中的应用潜力。

Quantum Observers: A NISQ Hardware Demonstration of Chaotic State Prediction Using Quantum Echo-State Networks

BriefGPT - AI 论文速递 ·

本文探讨在无额外计算资源的情况下，大型语言模型（LLM）能力的提升。作者提出了一个分类框架，区分依赖计算与独立于计算的创新，结果表明，计算独立的创新在资源受限环境中显著提升了性能。

LLM-e Hypothesis: Can the Capabilities of Large Language Models Improve Without Hardware Advancements?

BriefGPT - AI 论文速递 ·

本研究提出了一种层次稀疏注意力（HSA）机制，解决了递归神经网络（RNN）在随机访问历史上下文方面的局限性。结合HSA与Mamba形成的RAMba在6400万上下文中实现了完美的密码检索准确率，展示了其在长上下文建模中的潜力。

Random Long-Context Access for Mamba via Hardware-aligned Hierarchical Sparse Attention

BriefGPT - AI 论文速递 ·

本文探讨了摩尔定律在现代计算中的局限性，强调硬件与软件协同设计对满足性能需求的重要性，并指出打破传统界限有助于重新定义计算机设计原则，推动新一代计算的进步。

Beyond Moore's Law: Harnessing the Redshift of Generative AI through Effective Hardware-Software Co-Design

BriefGPT - AI 论文速递 ·

本研究提出了CARE模型，通过QLoRA微调Phi3.5-mini，实现了在极少硬件和数据下的快速学习，解决了大语言模型在特定领域问答的时间和成本问题。CARE在电信、医疗和银行等领域表现良好，尤其在医疗基准测试中显示出提供基本医疗建议的潜力。

CARE: A Multi-Domain Chatbot Fine-Tuned with QLoRA for Fast Learning on Minimal Hardware

BriefGPT - AI 论文速递 ·

本研究提出了一种基于大型语言模型（LLM）的优化框架，能够自动重构代码以应对硬件设计的挑战。实验结果表明，该模型在成功率、效率和设计质量上优于传统LLM，为硬件设计提供了新的视角。

Can Inference Models Reason About Hardware? An Active High-Level Synthesis Perspective

BriefGPT - AI 论文速递 ·

本研究提出了一种三层解耦架构，解决了大语言模型应用中的平台孤岛、硬件集成碎片化和标准化接口缺乏的问题，从而提升了应用效率，并为安全可扩展的AI部署提供了新视角。

The Next Frontier of Large Language Model Applications: Open Ecosystems and Hardware Collaboration

BriefGPT - AI 论文速递 ·

我看 It's time for operating systems to rediscover hardware

ネコのメモ帳 ·

Hardware.Info 是一个跨平台的硬件信息查询库，支持 Windows、Linux 和 macOS，能够获取电池、CPU、内存和存储等硬件信息，提供详细数据。尽管存在查询延迟和数据无效的问题，但可通过适当配置加以解决。

Net跨平台硬件信息查询库 Hardware.Info：全面获取系统硬件详情

dotNET跨平台 ·

本研究提出了一种结合强化学习与卷积神经网络的方法，以提高在量子硬件上为大规模Sachdev-Ye-Kitaev模型（N>12）准备热态的效率。该方法通过优化量子电路，显著减少了CNOT门的数量，并在不同量子环境中展示了高效性和准确性，对量子多体系统和量子引力研究具有重要意义。

Improving Thermal State Preparation of the Sachdev-Ye-Kitaev Model on Quantum Hardware Using Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究将卡拉茨巴算法扩展至矩阵乘法，设计了高效的硬件架构，显著降低了额外加法复杂度，提高了深度学习加速器的性能。

Karatsuba Matrix Multiplication and Its Efficient Custom Hardware Implementation

BriefGPT - AI 论文速递 ·

本研究提出了集成方案RouteNet-Gauss，结合实验网络与机器学习，显著提升了网络模拟的效率和准确性，推理时间缩短至原来的1/488，预测误差降低95%。

RouteNet-Gauss: Hardware-Enhanced Network Modeling Based on Machine Learning

BriefGPT - AI 论文速递 ·

本文提出了一种名为RTLMarker的硬件水印框架，旨在有效保护RTL代码的版权。通过规则驱动的Verilog代码变换，确保水印的正确性，并优化水印的透明度与有效性。研究表明，RTLMarker在水印效果上显著优于现有方法。

RTLMarker: Protecting RTL Copyright Generated by LLM via a Hardware Watermarking Framework

BriefGPT - AI 论文速递 ·

Software-defined hardware is reshaping multiple industries as advances in AI enable new capabilities and dramatically reduce development costs.

Software-defined hardware in the age of AI

McKinsey Insights & Publications ·

本研究提出了一种基于深度展开的结构化学习迭代收缩和阈值算法（S-LISTA），旨在提高单快照多维谐波检索的准确性和能效。经过在SpiNNaker2硬件上的验证，能效提升近五倍，尽管性能略有下降。

Application of Deep-Unrolling Multidimensional Harmonic Retrieval Algorithms on Neuromorphic Hardware

BriefGPT - AI 论文速递 ·

本研究提出了SoftmAP方法，旨在解决大语言模型在资源受限设备上的计算和内存开销问题。该方法通过利用内存计算硬件实现低精度Softmax，仅使用整数，从而显著提高能量延迟产品，提升模型的可部署性而不损失性能。

SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors

BriefGPT - AI 论文速递 ·