小红花·文摘 - 小红花技术领袖俱乐部

作者在博客中道歉，因错误报告了Python尾调用解释器的性能提升数据。实际提升为3-5%，而非之前声称的9-15%。错误源于Clang 19编译器的bug，导致基准性能下降。作者承认未充分调查编译器，表示将更加谨慎。

对于Python尾调用解释器结果的歉意

Ken Jin’s Blog ·

本研究质疑大型语言模型（LLM）在语言、知识和推理基准上的表现是否真正反映其通用认知能力，指出现有评估方法的局限性，建议不应仅依赖基准性能来评估LLM的认知能力。

基准评估大型语言模型的固有限制

BriefGPT - AI 论文速递 ·

该文介绍了一个新的零资源代码切换语音基准，用于评估自我监督语音编码器的代码切换能力。实验包括多种知名的语音编码器，研究了预训练语言和模型大小对基准性能的影响。结果表明，多语言预训练的语音编码器优于单语变体，但仍有改进空间。

零资源混合语言音频基准测试：使用语音句对进行多种口语语言测试

BriefGPT - AI 论文速递 ·