小红花·文摘

该研究探讨了大型语言模型（LLMs）在因果推断中的局限性，特别是在处理统计陷阱方面。通过CausalPitfalls基准，评估了LLMs在因果推理和答案可靠性方面的表现，结果显示其存在显著局限，为因果推理系统的发展提供了指导。

Ice Cream Doesn't Cause Drowning: Benchmarking Large Language Models Against Statistical Pitfalls in Causal Inference

BriefGPT - AI 论文速递 ·

本研究评估了大型语言模型（LLM）推理过程的环境影响，提出了一种新基准框架，量化了30种先进模型在商业数据中心的资源消耗。结果表明，尽管单次查询的能效较高，但全球应用导致了巨大的资源消耗，强调了可持续性评估的重要性。

How Energy-Intensive is AI? Benchmarking the Energy, Water, and Carbon Footprint of LLM Inference

BriefGPT - AI 论文速递 ·

本研究提出了BioVFM-21M数据集，涵盖多种生物医学图像，探讨模型扩展对任务性能的影响。BioVFM模型在12个医学基准测试中超越了现有最佳模型。

BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models in Biomedical Image Analysis

BriefGPT - AI 论文速递 ·

本研究提出了一种新的性能分析机制，通过动态调整系统配置，优化CPU频率和负载管理，显著提高边缘计算中的CPU资源利用率和能效。

Benchmarking of CPU-Intensive Stream Data Processing in Edge Computing Systems

BriefGPT - AI 论文速递 ·

本研究提出了一种灵活的框架，用于系统化评估基于大型语言模型的任务导向对话系统。该框架比较不同用户模拟器与对话系统的组合，分析架构、规模和提示策略对对话性能的影响，为构建高效的会话人工智能系统提供指导。

A Framework for Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Implementations

BriefGPT - AI 论文速递 ·

本研究提出NeuroSim V1.5，旨在提高传统冯·诺依曼架构的效率。通过与TensorRT集成、新的噪声注入方法及扩展设备支持，显著提升了ACIM加速器的建模准确性，实现了在设计空间中同时探索精度与硬件效率的可能性。

NeuroSim V1.5: Improved Software Backbone for Benchmarking Compute-in-Memory Accelerators with Device and Circuit-Level Non-Idealities

BriefGPT - AI 论文速递 ·

本研究针对限价单簿（LOB）表示学习中的特征提取和通用性不足问题，提出了标准化基准LOBench，并利用中国A股市场数据进行评估。研究展示了有效提取可转移特征的方法及其在不同任务中的优势，为未来研究提供了可复制的框架和指导。

Representation Learning of Limit Order Book: A Comprehensive Study and Benchmarking

BriefGPT - AI 论文速递 ·

本研究探讨了文本数据中的说话者识别问题，提出了一种基于大型预训练模型的模糊指纹方法。通过整合说话者特定令牌和上下文建模，显著提高了识别准确率，并在多个数据集上表现优越，为文本基础的说话者识别提供了重要见解。

Speaker Fuzzy Fingerprints: Benchmarking Text-Based Identification in Multiparty Dialogues

BriefGPT - AI 论文速递 ·

本研究探讨无人机带来的安全挑战，全面审查反无人机技术，重点关注分类、检测和跟踪。提出新方法，指出实时性能和隐身检测的不足，强调开发适应性强的反无人机系统的必要性。

Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions

BriefGPT - AI 论文速递 ·

本研究提出了BoTTA基准评估方法，以应对移动和边缘设备上测试时适应(TTA)的挑战，尤其是在资源有限的环境中。研究表明，许多现代TTA算法在小数据集上表现不佳，难以适应未见类别，为实际应用提供了指导。

BoTTA: Benchmarking Test Time Adaptation on Mobile Devices

BriefGPT - AI 论文速递 ·

本研究评估了电子商务中图像嵌入的基础模型，发现全面微调模型表现优异，而文本-图像和自监督嵌入在较少训练下也能达到相似效果。顶层微调被证实为降低计算成本的有效替代方案，为嵌入选择和微调策略提供了实用指导。

Benchmarking Image Embeddings for E-Commerce: Evaluating Off-the-Shelf Foundation Models, Fine-Tuning Strategies, and Practical Trade-offs

BriefGPT - AI 论文速递 ·

本研究提出了Prism框架，利用蒙特卡洛树搜索技术进行动态基准测试，以评估大规模语言模型（LLM）的代码生成能力，并揭示其性能限制。

Prism: Dynamic and Flexible Benchmarking of LLM Code Generation Using Monte Carlo Tree Search Techniques

BriefGPT - AI 论文速递 ·

本研究提出了“误导性图表问答基准”，用于评估多模态大语言模型识别误导性图表的能力。结果表明，现有模型在识别视觉误导方面存在局限性，并提出了新方法以提高解读准确性，为理解误导性图表提供了基础。

Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering

BriefGPT - AI 论文速递 ·

本研究探讨了基准数据污染对大规模语言模型评估的影响，并系统性检验了现有缓解策略的有效性。结果表明，现有策略未能显著提高抵御污染的能力，强调了设计更有效缓解策略的必要性。

The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for Benchmark Data Contamination in Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出ECKGBench数据集，以解决大型语言模型在电子商务中的事实性评估不足问题，提升评估效率和可靠性，促进其实际应用。

Ice Cream Doesn't Cause Drowning: Benchmarking Large Language Models Against Statistical Pitfalls in Causal Inference

How Energy-Intensive is AI? Benchmarking the Energy, Water, and Carbon Footprint of LLM Inference

BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models in Biomedical Image Analysis

Benchmarking of CPU-Intensive Stream Data Processing in Edge Computing Systems

A Framework for Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Implementations

NeuroSim V1.5: Improved Software Backbone for Benchmarking Compute-in-Memory Accelerators with Device and Circuit-Level Non-Idealities

Representation Learning of Limit Order Book: A Comprehensive Study and Benchmarking

Speaker Fuzzy Fingerprints: Benchmarking Text-Based Identification in Multiparty Dialogues

Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions

BoTTA: Benchmarking Test Time Adaptation on Mobile Devices

Benchmarking Image Embeddings for E-Commerce: Evaluating Off-the-Shelf Foundation Models, Fine-Tuning Strategies, and Practical Trade-offs

Prism: Dynamic and Flexible Benchmarking of LLM Code Generation Using Monte Carlo Tree Search Techniques

Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering

The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for Benchmark Data Contamination in Large Language Models

Knowledge Graph-Based Benchmarking for Large Language Models in E-Commerce

MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Intelligent Systems

Dynamic Benchmarking of Reasoning Capabilities in Large Code Language Models: Challenges Under Data Contamination

Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents

PredictaBoard: Benchmarking the Predictability of Scores for Large Language Models