BriefGPT - AI 论文速递 ·

SemEval-2025任务3：Mu-SHROOM，多语言共享任务关于幻觉和相关可观察过量生成错误

📝

内容提要

本研究针对指令调优的大型语言模型输出中的幻觉和其他过量生成错误的检测问题，提出了Mu-SHROOM共享任务。研究显示，来自43个团队的2618份提交表明了学术界对幻觉检测的高度关注，同时还识别出与性能相关的关键因素，并强调了跨语言幻觉的差异性及标注者之间的高不一致性等当前挑战。

🏷️

百度文心助手任务Agent登顶国际权威榜单，超越Claude、GPT拿下全球智能体冠军
从 Token 价格战到成功任务单位经济学：AI 成本战的真正主线（上） - 张善友
AI 行业过去最喜欢讲的是"能力"，今天越来越必须讲的是"结果"。"有用智能每人民币"（Useful In...
我上线了Token共享与交换平台AITokenBus
故事的开始是这样的：有一次，我正在使用AI完成某个任务，突然提示，你的套餐用量已经消耗完了，此时，看着做到一半的任务，我却束手无策。这一刻我的脑海中跳出...
AWS Billing Bug Shows Customers Trillion-Dollar Estimates While Its Own Cost Alarms Fail to Act
A configuration change in AWS's bill computation system showed customers ...
实测 Doubao-Seed-Evolving：把 Windows 桌面图标做成一个会自己运转的小世界 - 努力的小雨
豆包 Seed 又更新了：一张永远“最新”的模型卡这次豆包推出的不是一个过段时间就会落后的固定版本，而是 Doubao-Seed-Evolving：一个...
Amazon Bedrock AgentCore Gateway 内置 Web 搜索工具实战
通过 MCP 将 Web Search Tool 集成到 AgentCore Gateway，为 AI Agents 提供实时网络搜索能力。