小红花·文摘

沉没成本

happy xiao ·

《思辨力35讲：像辩手一样思考》读书笔记

Yi's blog ·

再谈LLM逻辑推理的三大谬误

OneFlow深度学习框架 ·

本研究探讨了“语言作为固定效应谬误”对GPT-4等大型语言模型的影响。研究强调将语言视为随机效应的重要性，并警告不要基于有限的测试集对模型能力做出广泛概括。研究人员应设计更健壮的研究，以更准确地评估模型的真实潜力。

警惕“语言作为固定效应”谬误：重新思考关于GPT-4能力的主张

DEV Community ·

本文提出了一种自适应测试框架，用于评估大型语言模型（LLMs），能够动态调整问题难度以更准确地估计模型能力。研究表明，GPT-4在主题知识、数理推理和编程方面表现优异，并引入了新评估范式，揭示了现有基准测试的缺陷，强调了对LLMs认知能力的深入研究和动态评估的重要性。

我们能依赖大型语言模型吗?固定效应谬误与GPT-4能力的主å¼

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）在多轮辩论中的逻辑推理能力，发现GPT-3.5和GPT-4在面对逻辑谬误时容易被说服。通过构建新的数据集LFUD，评估LLMs的逻辑谬误理解能力，并提出FRODO框架以提高推理的鲁棒性和泛化能力。研究还分析了背景学习和有监督微调对模型性能的影响，强调逻辑谬误检测的重要性。

论证生成的逻辑谬误知识框架

BriefGPT - AI 论文速递 ·

该论文提出了一种名为Tastle的新型越狱攻击方法，旨在自动化攻击大型语言模型（LLMs）。研究评估了多种攻击和防御技术，发现通过新算法和微调策略成功降低了攻击率，强调了评估越狱方法的重要性，并为未来的安全防护提供了见解。

大型语言模型是不自觉的说真话者：利用谬误失误进行越狱攻击

BriefGPT - AI 论文速递 ·

AI法案旨在将非歧视责任与算法公平结合，以应对结构性不平等。研究分析了欧盟非歧视法与算法公正的关系，提出了衡量机器学习公平性的指标，并强调算法透明性和公平审计的重要性。文章探讨了算法偏见的原因及解决方案，强调在自动化决策中实现公平与准确性的平衡。

中性谬误：算法公平干预何时 (不) 是积极行动

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在逻辑推理和谬误识别方面的能力，发现GPT-3.5和GPT-4在面对逻辑谬误时容易被说服。通过构建新的数据集（LFUD）评估LLMs的逻辑谬误理解能力，结果显示其在复杂推理任务中仍存在不足。研究提出了多种提升LLMs逻辑推理能力的策略，并强调了公平性在LLMs应用中的重要性。

评估一个 LLM 在逻辑谬误识别中的效能：在采用 LLMs 进行人机交互研究时呼吁严谨

BriefGPT - AI 论文速递 ·

本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能，并提出了一种新的评估框架 LongDocFACTScore，该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。同时，在短文档数据集上与人工度量标准的事实一致性进行评估时，LongDocFACTScore 具有与最先进度量标准相当的性能。

合并事实，创造谬误：评估长篇生成中聚合事实声明的矛盾性质

BriefGPT - AI 论文速递 ·

定义主义谬误是使用带有偏见或自以为是的定义来进行论证。避免这种谬误的方法是可靠地定义自己的术语，避免使用充满情感的定义。

逻辑错误：定义主义谬误

极道 ·

计划谬误

Eirms ·

本文介绍了一种新的数据增广技术，利用语言模型生成逼真的文本样本，并利用软标签蒸馏知识，同时创建文本扰动。实验证明该方法在分类任务上的数据增广效果优于现有方法。

大型语言模型是份少样本训练生成器的案例研究：谬误识别

BriefGPT - AI 论文速递 ·

相关性谬误是混淆相关性和因果关系的错误。相关性是指两个事件同时存在，但可能由第三个变量造成。因果关系要求A先于B发生，两者共变，且没有竞争性解释。科学家必须设计和控制实验，消除偏见和混淆变量。相关性量化科学研究中的强度和方向。相关系数范围从-1到1。相关性不意味着因果关系。因果关系的确定困难，科学家容易犯错误。