小红花·文摘 - 小红花技术领袖俱乐部

本研究指出Chatbot Arena排行榜在评估AI系统能力时存在系统性问题，导致结果失真。揭示了数据获取不对称的影响，并提出改进建议，以实现更公平透明的基准测试。

Ranking Illusion

BriefGPT - AI 论文速递 ·

中文得分世界第一，多项盲测并肩 GPT4o，这个国产大模型怎么就成了 AI 界的黑马？

中文得分世界第一，多项盲测并肩 GPT4o，这个国产大模型怎么就成了 AI 界的黑马？

爱范儿 ·

Qwen-Max-0428模型介绍

Qwen-Max-0428模型介绍

Blog on Qwen ·