小红花·文摘

本研究比较了GPT-2和LLaMA-2在心智理论任务中的下一个令牌预测表现。结果表明，LLaMA-2在低温度设置下的预测准确性优于GPT-2，尤其在复杂推理任务中，两者表现差异显著。

Exploring Next Token Prediction in Theory of Mind (ToM) Tasks: Comparative Experiments with GPT-2 and LLaMA-2 AI Models

BriefGPT - AI 论文速递 ·

本研究探讨了人工智能代理如何提升生产力和工作流程，推出了实验平台MindMeld。大规模营销实验表明，当AI个性与人类成员匹配时，人类与AI团队的沟通和创作效率显著提高，广告质量和效果也显著提升。

Collaborating with AI Agents: Field Experiments on Teamwork, Productivity, and Performance

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型在闭源仿真软件中的应用，特别是通过检索增强生成方法解决知识密集型任务的信息缺失问题。实验表明，RAG系统能够有效访问闭源软件知识，但仍需解决信息不足的问题，并进行进一步研究。

Experiments with Large Language Models on Retrieval-Augmented Generation for Closed-Source Simulation Software

BriefGPT - AI 论文速递 ·

本研究探讨了用户生成内容平台上AI生成标题的价值，实地实验表明，AI生成的标题显著提升了内容消费，尤其在创作者与AI合作时，强调了人机协作的重要性。

The Value of AI-Generated Metadata on User-Generated Content Platforms: Evidence from Large-Scale Field Experiments

BriefGPT - AI 论文速递 ·

本研究评估了大型语言模型（LLMs）在组合数学问题解决中的表现，并提出了Combi-Puzzles数据集进行比较。结果显示，基于GPT-4的模型在解题正确率和变体表现上优于其他模型和人类，同时问题表述的修改对LLMs的影响显著。

Can Language Models Rival Mathematics Students? Evaluating Mathematical Reasoning through Textual Manipulation and Human Experiments

BriefGPT - AI 论文速递 ·

本研究探讨量子核方法在经典数据学习中的效率，展示其在一维回归和二维分类任务中的强大能力。

Quantum Kernel Methods for Combining Classical and Quantum Data in Machine Learning through NMR Experiments

BriefGPT - AI 论文速递 ·

本研究探讨了如何在非结构化文本中检测法律违规及其对个体的影响。结合RoBERTa和CNN模型，法律命名实体识别和自然语言推理的准确率分别达86.3%和88.25%。

University of Ottawa's Transformer-Based Classification Experiments at LegalLens-2024

BriefGPT - AI 论文速递 ·

本研究分析大型语言模型在非单调推理中的能力和局限性，提出了基准测试，通过将可反驳规则转为文本形式，评估ChatGPT的推理表现，并与可反驳逻辑进行比较。

Benchmarking Defeasible Reasoning with Large Language Models: Preliminary Experiments and Future Directions

BriefGPT - AI 论文速递 ·

Helicone团队推出了Helicone Experiments，这是一种简化和优化提示工程的新工具，旨在提高效率。用户可注册抢先体验。

提示工程 AI-表格化体验 🚀

DEV Community ·

By Aurélien Bibaut, Winston Chou, Simon Ejdemyr, and Nathan KallusWe are excited to share our work on how to learn good proxy metrics from historical experiments at KDD 2024. This work addresses a...

Improve Your Next Experiment by Learning Better Proxy Metrics From Past Experiments

Netflix TechBlog ·