BriefGPT - AI 论文速递 ·

评估法律推理中的测试时间扩展大型语言模型：OpenAI o1、DeepSeek-R1及其他

💡 原文中文，约400字，阅读约需1分钟。

📝

内容提要

本研究评估了9个大型语言模型在法律推理中的表现，发现DeepSeek-R1和OpenAI o1在复杂法律任务（如多被告判决和法律论证）上得分均低于80%。

🎯

🏷️

OpenAI开始测试「使用ChatGPT登录」开发者需申请接口和应用让用户可以快捷登录
#人工智能 OpenAI 开始测试「使用 ChatGPT 登录」，受邀开发者申请接口和应用后就可以让用户不需要单独注册、直接使用 ChatGPT 登录网站...
这这这…翁荔光速回OpenAI上班了
6位联合创始人——只剩2名。
OpenAI president says it’s ‘building a family of devices’ for its AI chatbots
In an interview with our friend Joanna Stern on her YouTube channel, OpenAI p...
Kernel of truth: GPT-5.6 Sol can cut its own costs, says OpenAI
OpenAI has detailed, in a new engineering blog post, how the GPT-5.6 model fa...
τ0-VLA——具有世界模型“引导测试时计算”的分层机器人模型：首先生成多个子任务候选，然后世界模型预演，最后价值模型评估
本文摘要：τ0-VLA提出了一种分层机器人基础模型，通过世界模型引导的测试时计算来提升长时程任务中的决策质量。该系统采用高层策略生成候选子任务，结合世界模...
OpenAI’s rogue AI agent didn’t stop at hacking Hugging Face
The AI agent that escaped from OpenAI and hacked developer platform Hugging F...