小红花·文摘 - 小红花技术领袖俱乐部

超越应用层的基准测试：Uber如何评估基础设施变更和云SKU

超越应用层的基准测试：Uber如何评估基础设施变更和云SKU

InfoQ ·

本文提出了时间序列健身房，作为评估人工智能代理在时间序列机器学习中的基准框架，旨在填补现有基准的不足，提高AI代理评估的相关性和实用性。

时间序列健身房：一个可扩展的（时间序列）机器学习工程代理基准

BriefGPT - AI 论文速递 ·

本研究评估了大型语言模型（LLM）推理过程的环境影响，提出了一种新基准框架，量化了30种先进模型在商业数据中心的资源消耗。结果表明，尽管单次查询的能效较高，但全球应用导致了巨大的资源消耗，强调了可持续性评估的重要性。

How Energy-Intensive is AI? Benchmarking the Energy, Water, and Carbon Footprint of LLM Inference

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型中的偏见问题，提出了一种可扩展的基准框架，通过多任务方法检测社会文化维度的偏见，并利用大型语言模型进行自动评估。研究揭示了模型大小与安全性之间的权衡，为未来更公平的语言模型发展提供指导。

Benchmarking Adversarial Robustness to Bias in Large Language Models: Scalable Automated Assessment Using LLM as a Judge

BriefGPT - AI 论文速递 ·

本研究提出了MLLMU-Bench基准框架，以解决多模态大语言模型在隐私保护方面的不足。研究发现，单模态遗忘算法在生成和填空任务中表现优异，而多模态遗忘方法在分类任务中更有效。

Protecting Privacy in Multimodal Large Language Models with MLLMU-Bench

BriefGPT - AI 论文速递 ·