小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了专为通用推理任务设计的检索器ReasonIR-8B，克服了现有检索器在推理任务中的局限性。通过合成数据生成，ReasonIR-8B在BRIGHT基准测试中取得了新成绩，显著提升了MMLU和GPQA的性能，展示了其优势和广泛适用性。

ReasonIR：为推理任务训练检索器

BriefGPT - AI 论文速递 ·

OPENAI宣布向ChatGPT付费订阅用户开放GPT-4 Turbo 2024-04-09版模型，提高了写作、数学、逻辑推理和编程开发的能力。测试对比显示GPQA得分明显提升。

OPENAI宣布新模型GPT-4 Turbo 0409向ChatGPT付费订阅用户开放

蓝点网 ·

GPQA是一个448个多选题的高难度数据集，对非专家和AI系统都具有一定难度。需要开发可扩展的监督方法以提供可靠的人类监督和获取可靠信息的能力。

GPQA：一份应届毕业生可接受且无需谷歌验证的问答基准

BriefGPT - AI 论文速递 ·