小红花·文摘

Micropaper ·

在Rust中，某些语句可能导致悬垂引用，但只有一个会在编译时报错。需要分析引用和借用的具体规则。

Rust.cc ·

研究表明，与AI交流时，使用粗鲁语气能提高回答的正确率。宾夕法尼亚州立大学的研究发现，粗鲁提问时，GPT-4o的正确率为84.8%，而客气提问时为80.8%。粗鲁语气更直接，减少干扰，使AI更专注于回答。尽管新模型表现如此，旧模型仍需注意表达方式。

量子位 ·

南洋理工大学研究团队提出了Video Thinking Test（Video-TT）来评估AI的视频理解能力。研究显示，GPT-4o的准确率仅为36%，远低于人类的84.3%。AI在模糊内容、场景区分和世界知识理解方面存在显著弱点，表明视频理解领域仍需提升。

量子位 ·

SeePhys新基准显示，当前顶尖AI模型在物理图像理解方面的准确率仅为55%。该基准涵盖从初中到博士的多模态物理问题，强调视觉信息对模型推理的重要性，揭示了多模态推理的巨大挑战。

量子位 ·

Sakana AI发布的Sudoku-Bench测试显示，AI模型在数独问题上的整体正确率仅为15%，而9×9难度的o3 Mini High模型正确率仅为2.9%。该测试旨在评估AI的创造性推理能力，传统数独对模型而言过于简单，无法有效应对新规则的“变异数独”挑战。

量子位 ·

本研究提出FarsEval-PKBETS基准，包含4000个多样化问题，旨在评估波斯语大型语言模型的性能。测试结果显示，现有模型的平均正确率低于50%，表明其在复杂波斯语任务中存在显著能力缺陷。

BriefGPT - AI 论文速递 ·

机器之心 ·

本研究提出了LEGO-Puzzles基准，用于评估多模态大语言模型（MLLMs）在多步空间推理中的表现。结果显示，最强的MLLMs正确率约为50%，而人类参与者的正确率超过90%。

BriefGPT - AI 论文速递 ·

本研究提出了ToolMaker框架，解决了大型语言模型在缺乏专用工具时的应用限制。ToolMaker能够自动将研究论文中的代码转换为LLM兼容工具，实验结果显示其在复杂计算任务中达到了80%的正确率，推动了自主科学工作流的发展。

BriefGPT - AI 论文速递 ·

全球肠胃病患者已达1.2亿，胶囊内窥镜（MCCE）因其无痛、非侵入性而备受关注。华中科技大学团队提出的自监督S2P-Matching方法显著提升了图像拼接的准确性，助力早期肠胃疾病的诊断。该研究已在IEEE期刊上发表，推动了无创内镜技术的应用。

HyperAI超神经 ·

The Verge ·

Ying’s Blog ·