小红花·文摘

Kimi K3在Arena编码排行榜上名列前茅——并且是开源模型

The New Stack ·

扎克伯格 reportedly 想要一个 Polymarket 克隆——但不使用真实货币

The Verge ·

Seed 2.0刷新Arena榜单，国产模型排名最高

机器之心 ·

Windsurf推出Arena模式以便在开发过程中比较AI模型

InfoQ ·

当AI裁判，赢爆款好礼！星河Arena大模型竞技场开放！

百度大脑 ·

Code Arena作为现实世界AI编码性能的新基准正式推出

InfoQ ·

AI炒币一周战报：DeepSeek凭低频策略狂赚36%，GPT-5惨亏28%，Gemini更是亏掉30%！｜Alpha Arena、AI trading、LLM、Crypto trading

硕鼠的博客站 ·

实时编码会议：构建Arena

Peter Steinberger ·

本研究提出了“诊断竞技场”基准测试，以评估复杂诊断推理能力。通过分析1,113个病例，发现现有推理模型在临床诊断中的准确率仅为45.82%，显示其推广能力不足。

Diagnostic Arena: A Benchmark Test for Diagnostic Reasoning in Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种名为CHARM的校准方法，旨在解决奖励模型中的偏差问题，从而提高评估的准确性和与人类偏好的相关性，促进更公平可靠的奖励模型构建。

CHARM: Calibrating Reward Models Using Chatbot Arena Scores

BriefGPT - AI 论文速递 ·

本研究提出了DeepFund平台，旨在评估大型语言模型（LLMs）在基金投资中的有效性。该平台采用多代理框架和前向测试方法，模拟真实市场环境，消除信息泄露问题，从而为LLMs在金融市场的应用提供更准确的评估。

DeepFund: Will Large Language Models Become Proficient in Fund Investment? Insights from a Real-Time Arena

BriefGPT - AI 论文速递 ·

本研究针对现有语音到语音协议评估中缺乏对副语言信息考虑的问题，提出了S2S-Arena基准。这一新方法在真实任务中评估语音模型的指令跟随能力，实验结果表明，优秀的语音模型能够理解副语言信息，但在生成相应音频时仍面临挑战。

S2S-Arena：使用副语言信息评估语音到语音协议的指令跟随能力

BriefGPT - AI 论文速递 ·

1M长上下文，满血版Gemini 2.0又一次登上Chatbot Arena榜首

机器之心 ·

本研究提出了一个综合环境（GTArena），用于评估自动化GUI测试的全过程。尽管已有先进模型，测试意图生成、任务执行和缺陷检测等子任务的表现仍不理想，显示出自主GUI测试与实际应用之间的差距。

GUI Testing Arena: Advancing a Unified Benchmark for Autonomous GUI Testing Agents

BriefGPT - AI 论文速递 ·

无妥协的Arena分配

DEV Community ·

BigBIO项目是一个包含126个生物医学NLP数据集的库，旨在支持语言模型的训练和评估。研究表明，经过精细调整的大型语言模型在生物医学任务中表现优于简单模型。Bio-SIEVE模型在医学文献筛选中表现出色，但在安全优先情境下仍面临挑战。未来研究需关注数据隐私和模型可解释性等问题。

Elsevier Arena: 人工评估化学/生物/健康基础大型语言模型

BriefGPT - AI 论文速递 ·

本文探讨了深度生成模型的评估方法，批评了Inception Score的局限性，并提出了基于人类偏好的新评估标准，如PickScore和VQAScore。研究引入了人类喜好数据集和框架，旨在提高生成模型与人类审美的对齐，强调系统评估的重要性，并展示了SafeSora数据集在文本到视频生成中的应用潜力。

K-Sort Arena：基于K次人类偏好的生成模型高效可靠基准评估

BriefGPT - AI 论文速递 ·

Embarking on a cloud migration journey is not always an easy task, and it is crucial to lay out a plan with goals and steps at each step along the way. As Director of Solutions Engineering at...

Migrating Transactional Data to MongoDB in AWS with the Zaloni Arena Data Governance Platform

MongoDB ·

前言 protobuf 从3.0版本开始对C++增加了Arena接口，可以用于使用连续的内存块分配内部对象，并且可以更容易精确地控制对象地生命周期，最终达到减少内存碎片地目的。最近我给我们项目的部分接口流程进行相关地改造，在大多数使用 protobuf 的地方都增加了对Arena的支持，但是在接入过程中也碰到了一些问题和坑。

几个使用protobuf中C++接口的Arena的坑

I'm OWenT ·