小红花·文摘

十分钟出结果，陶哲轩用Gemini Deepthink帮人类数学家完成Erdős问题论证

机器之心 ·

大规模AWS故障：110亿美元的Kubernetes论证

The New Stack ·

MIT研究表明，过度依赖ChatGPT会降低大脑活动，影响记忆和创造力，导致认知惯性，减少深度思考。因此，保持工具使用与自主思考的平衡至关重要。

ChatGPT用多了会变傻！MIT招募大学生做实验论证，用得越多人越笨

量子位 ·

本研究提出了一种新方法，结合大型语言模型与沃尔顿的论证方案，系统生成关键问题，促进批判性思维，识别论点的缺失与不足。

DayDreamer在CQs-Gen 2025：通过论证方案完成生成关键问题

BriefGPT - AI 论文速递 ·

本研究针对在决策与枚举之间的论证推理难题，提出了一种新概念“面向”，它能够有效区别属于某些扩展（可信）但不属于所有扩展（怀疑）的论证。研究表明，涉及面向的任务在复杂性上显著低于扩展计数，从而为用户在理解和筛选特定论证的重要性时提供了更为便捷的工具。

论证的面向：论证重要性的形式方法

BriefGPT - AI 论文速递 ·

本研究解决了监控与分析过程追踪中的事件与业务活动之间的解释问题，提出了一种新颖的神经符号方法，通过将用户示例驱动的序列标记器的候选解释与抽象论证框架相结合，以减少数据稀缺带来的影响。实验结果表明，这一方法不仅提高了解释的准确性，还在资源有限的情况下实现了计算和劳动成本的降低，支持环保与可持续发展。

结合抽象论证与机器学习以高效分析低级流程事件流

BriefGPT - AI 论文速递 ·

如何验证任何（合理的）分布特性：分布的计算上可靠的论证系统

Apple Machine Learning Research ·

本研究解决了现有解释性人工智能方法中动态学习和更新人类用户模型的关键缺口。我们提出了一种名为Persona的框架，通过论证对话使人工智能代理能够适应对人类用户的理解，结合了前景理论与贝叶斯信念更新机制。研究结果表明，Persona在捕捉人类信念演变及提供个性化互动方面表现优于现有最先进的方法。

你的人工智能代理了解你吗？一种个性化框架用于从基于论证的对话轨迹中近似人类模型

BriefGPT - AI 论文速递 ·

本研究针对论证质量评估中主观性的问题，系统审查现有的数据集，并针对注释内容和注释者信息进行多层次分类。这一分析有助于推动观点主义模型的研究，特别是强调个体化注释的重要性，拓展未来的研究方向和数据集的可比性。

朝向观点主义转向的论证质量评估

BriefGPT - AI 论文速递 ·

本文解决了自动比较问答过程中的关键问题，提出了一种评估框架用于评估比较问答摘要的质量。研究发现，Llama-3 70B Instruct模型在摘要评估中表现最佳，而GPT-4在回答比较问题方面效果最佳。

基于论证的比较问答评估基准

BriefGPT - AI 论文速递 ·

本研究解决了当前教育中缺乏有效论证挖掘工具的问题，提出了一种利用开源小型大语言模型进行论证识别和评估的新方法。研究表明，经过微调的小型模型在论证段落分割和类型分类方面的表现优于基线方法，而在评估质量时少量样本提示的效果也与基线相当。这项工作展示了小型开源模型在个性化反馈和提升学生写作能力方面的教育潜力。

利用小型大语言模型进行教育中的论证挖掘：论证成分识别、分类与评估

BriefGPT - AI 论文速递 ·

本研究提出了“辩论树”框架，旨在解决科学发现的分散问题。该框架通过将科学论文转化为辩论角色，生成详细论证，促进论文比较和文献综述，实验结果表明其在提升批判性思维方面的有效性。

Tree of Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis

BriefGPT - AI 论文速递 ·

本研究解决了在引用推荐中缺乏考虑引用意图的问题，提出了一种基于论证区划的信息使用方法。通过建立多任务学习模型，将论证区划和引用推荐结合，该方法显著提高了引用推荐的性能，具有重要的实际应用价值。

基于用户查询的论证区划的引用推荐

BriefGPT - AI 论文速递 ·

本研究旨在解决生成人工智能在构建反应评分中的有效性证据不足的问题。文章提出一种新的比较方法，分析了基于特征的人工智能评分与生成人工智能评分系统之间的差异，并建议了收集有效性证据的最佳实践。研究发现，生成人工智能的有效性证据要求比基于特征的自然语言处理评分更为广泛，这显示了在高风险测试中应用生成AI的潜在影响和复杂性。

基于生成人工智能应用的构建反应评分的有效性论证

BriefGPT - AI 论文速递 ·

本研究针对大型语言模型在论证计算中应用的不足进行探索，开发了一个包含多种抽象论证框架的基准，以验证LLMs在计算各种抽象论证语义扩展的能力。研究表明，利用过程解释的LLMs在语义计算学习中表现出更好的泛化能力，这为提升神经网络透明度和推动该领域进一步研究提供了新的思路。

大型语言模型在论证计算中的应用：基准研究

BriefGPT - AI 论文速递 ·

本研究填补了针对论证中离散情感类别（如“愤怒”）缺乏标注的空白，通过众包的方式对德国论证语料库进行了情感类别的主观注释，并评估了基于大型语言模型的自动标注方法。研究发现，情感类别能够增强论证情感性的预测，需要在论证中进行离散情感标注，且自动预测在愤怒和恐惧的预测中表现出高召回率但低精确度，显示出对负面情感的强偏见。

恐惧的猎鹰与愤怒的美洲驼：人类与大型语言模型对论证情感类别的标注

BriefGPT - AI 论文速递 ·

本研究针对在复杂和有争议的话题上评估检索增强论证的困难，提出了一种新的自动化评估方法。通过引入ConQRet基准，它提供了基于真实世界证据的长篇复杂人类撰写论证，使得评价检索效果和论证质量更加全面和可解释。本研究的主要发现是，提出的LLM评估方法能显著提高论证质量的评估效率并推动计算论证领域的发展。

ConQRet：用大型语言模型评估检索增强论证的细粒度基准

BriefGPT - AI 论文速递 ·

本研究探讨了四个开源大型语言模型在论证挖掘方面的能力，填补了这一领域对模型性能评估的空白。研究采用了三种不同的数据集，分析了模型在零-shot和few-shot场景下的论证能力。研究结果为未来开源大型语言模型在计算论证领域的应用提供了指导和基础。

评估开源大型语言模型在论证挖掘中的表现

BriefGPT - AI 论文速递 ·

本文报告了国际计算论证模型比赛的设计与结果，探讨了自动评估论点质量的方法，提出了基于神经网络的论点排序和分类技术。研究表明，前馈神经网络能够有效理解论证框架，并提出了一种质量评估方法，强调了解释性机器学习中的不一致性问题。最后，评估了大型语言模型在论证领域的表现，展示了其良好性能及未来研究方向。

论证与机器学习

BriefGPT - AI 论文速递 ·

该论文介绍了一种基于Dung框架的抽象论证系统，提出了渐进式选择方法和解析权重分配的新方法。研究涉及多值优先解释、双极AF语义、基于排名的语义应用及可解释人工智能，探讨了论证的形式化表示及影响度量，并解决了传统框架未考虑论证顺序的问题。

在不完全信息下的结构化论证的渐进语义方法

BriefGPT - AI 论文速递 ·