BriefGPT - AI 论文速递 ·

日期逻辑问答：大型语言模型时间偏差的基准测试

💡 原文中文，约700字，阅读约需2分钟。

📝

内容提要

本文介绍了DateLogicQA基准，包含190个问题，涉及多种日期格式和时间推理类型。研究分析了大型语言模型在时间推理中的表现差距，并提出了语义完整性指标来评估分词质量，同时探讨了代表性偏差和逻辑偏差。

🎯

🏷️

XZ 后门这件事，最该记住的不是 0.5 秒
XZ Utils 后门再次提醒我们，供应链安全不只是一套扫描工具能解决的问题。真正容易被忽略的，是维护者压力、构建链路、发布包和线上异常之间那些不起眼的缝。
华为韬定律干翻NVL72？五千芯片组网性能炸裂，AI集群不再看单颗算力
五千块芯片干翻英伟达？华为的AI数据中心正在改写物理规则。华为用落后两代的制造工艺，硬是靠系统级设计把AI集群性能拉到了超算天花板。当英伟达还在铜线传输...
1年2664人实锤：多吃亚精胺，肝脏脂肪指数直降9个点，腰围缩3.7cm
吃火锅时往红油里猛涮三盘毛肚的老铁们注意了，你们每天吞下去的那点亚精胺，可能比你们家楼下药店卖的护肝片还狠，你敢信？这篇刚砸在《欧洲营养学杂志》上的研究...
Here are the 30,000 songs Sony is suing Udio’s AI music generator over
Sony Music Entertainment has filed another lawsuit against Udio, accusing the...
The FCC is planning to retroactively ban disguised DJI gadgets
Last October, we told you how the FCC had given itself the power to retroacti...
Google just bet its inference future on a chip built for one model
The race to make AI inference cheaper is pushing chip design beyond general-p...