小红花·文摘 - 小红花技术领袖俱乐部

我们一直在错误地衡量AI；为什么经济价值工作是新的基准

我们一直在错误地衡量AI；为什么经济价值工作是新的基准

The New Stack ·

Claude Sonnet 4.6发布，计算机操作接近人类水平，性价比高，支持复杂任务，用户反馈优于Opus 4.5，安全性显著提升，适合企业客户，推动OpenClaw API发展。

Claude最新Sonnet：Opus级智能，性价比王炸，OpenClaw天选API

量子位 ·

本研究探讨了自然语言处理中习语理解的挑战，展示了如何通过大型语言模型和视觉-语言模型提升习语解释能力，达到接近人类的表现。

SemEval-2025 任务 1: AdMIRe - 促进多模态习语理解

BriefGPT - AI 论文速递 ·

本研究提出了一种通过测试时间训练（TTT）优化语言模型参数的方法，显著提高了模型在复杂推理任务中的表现，准确率达到61.9%，接近人类水平。

The Remarkable Effectiveness of Test-Time Training in Abstract Reasoning

BriefGPT - AI 论文速递 ·

研究发现，基于预训练文本的大型语言模型（LLM）可以接近人类水平地解决初级物理问题，并生成新的物理问题，具有在中等教育领域中应用的潜力。

G-LLaVA：多模态大型语言模型解决几何问题

BriefGPT - AI 论文速递 ·