BriefGPT - AI 论文速递 ·

Grok、Deepseek Janus、Gemini、Qwen、Mistral 和 ChatGPT 的视觉推理评估

📝

内容提要

本研究解决了传统多模态大语言模型评估中对单图像推理的局限，提出了一种新基准，整合了多图像推理任务、拒绝式评估和位置偏差检测。研究发现ChatGPT-o1在整体准确性和拒绝准确性方面表现优异，同时建立了以熵为基础的新指标来量化推理一致性，为下一代人工智能系统的评估设定了新标准。

🏷️

2026年1月MySQL性能评估
本文分析了Community MySQL、Percona Server和MariaDB的最新性能基准测试。结果显示，Percona Server与MySQ...
DeepSeek 与开源：肥沃土壤孕育 AI 硕果
中国开源生态经过二十年的发展，从零散探索到繁荣，推动了国产AI技术的崛起。DeepSeek等项目的成功得益于开源社区的积累与协作。尽管面临国际竞争，国内开...
AI 论文周报丨Transformer前沿研究专题导读，解析结构稀疏化、记忆机制与推理组织的最新进展
北京大学与 DeepSeek-AI 的研究者提出 Engram，一种具有 O(1) 查找复杂度的可扩展条件记忆模块，通过将静态知识检索 Transform...
人工智能周报 #333 - ChatGPT 广告，智谱+华为，思维机器的动荡
OpenAI将在ChatGPT中测试广告，免费和付费用户将看到相关产品广告，广告与回答分开且不影响模型输出，敏感类别被排除。Thinking Machin...
百万围观、HuggingFace多模态登顶，华人团队开源语音版「DeepSeek」海外爆火
马基参议员质疑OpenAI在ChatGPT中的‘欺骗性广告’
马基参议员对OpenAI在ChatGPT中引入广告表示担忧，认为这可能影响消费者保护和隐私。他向多家公司询问类似计划，并指出广告可能利用用户与聊天机器人的...