小红花·文摘

我们为编码代理提供了IDE原生搜索工具，结果显示它们变得更快且成本更低。

The JetBrains Blog ·

DigitalOcean的Agentic推理云如何通过NVIDIA GPU为Workato实现67%的推理成本降低

The DigitalOcean Blog ·

Smartsheet如何在无服务器架构中降低延迟并优化成本

AWS Architecture Blog ·

全球负载均衡器介绍：以简化和扩展优化您的全球HTTP流量

The DigitalOcean Blog ·

数据库内AI代理：使用Pgai教Claude使用工具

Timescale Blog ·

Atlas Edge Server 现已公开预览

MongoDB ·

该研究提出了一种硬件感知工具ODiMO，用于映射芯片上的不同加速器，以降低推理能量消耗或延迟。在实验中，ODiMO成功降低了能量/延迟，而精度下降有限。

TeMPO: 高效的时间多路复用动态光子张量核用于紧凑的慢光电光调制器边缘人工智能

BriefGPT - AI 论文速递 ·

本文介绍了Falcon，一种用于基于HE的二方计算框架的高效密实打包算法。通过零感知贪心打包算法和通信感知操作器平铺策略，提高了深度卷积的打包密度。相比其他HE-based 2PC框架，在操作器级别上实现了15.6x、5.1x和1.8x的延迟降低。在网络级别上，在CIFAR-100和TinyImagenet数据集上相较于Cheetah分别提高了1.4%和4.2%的准确率，并具有等通信的特征。

HEQuant: 结合同态加密和量化的通信高效私有推断

BriefGPT - AI 论文速递 ·

MoE-Infinity是一种成本高效的专家混合系统，通过卸载感知的专家来降低延迟开销，提高性价比。实验结果显示，MoE-Infinity优于现有系统和方法，延迟降低了4-20倍，部署成本降低了8倍以上。

MoE-Infinity: 激活感知的专家卸载以提升 MoE 服务的效率

BriefGPT - AI 论文速递 ·

借助 Amazon ElastiCache for Redis 7.1，可实现每个集群每秒超过 5 亿个请求

亚马逊AWS官方博客 ·

本文介绍了一种名为Falcon的高效密实打包算法，用于基于HE的二方计算框架。该算法通过贪心打包和平铺策略提高了深度卷积的打包密度，并在操作器级别上实现了延迟降低。在网络级别上，与Cheetah相比，在CIFAR-100和TinyImagenet数据集上分别提高了1.4%和4.2%的准确率，并具有等通信的特征。

Falcon：用于高效私密移动网络推断的同态加密卷积加速器

BriefGPT - AI 论文速递 ·

Apache Spark Structured Streaming 延迟降至亚秒级

Databricks ·