该研究探讨了大型语言模型(LLMs)在因果推断中的局限性,特别是在处理统计陷阱方面。通过CausalPitfalls基准,评估了LLMs在因果推理和答案可靠性方面的表现,结果显示其存在显著局限,为因果推理系统的发展提供了指导。
本研究评估了大型语言模型(LLM)推理过程的环境影响,提出了一种新基准框架,量化了30种先进模型在商业数据中心的资源消耗。结果表明,尽管单次查询的能效较高,但全球应用导致了巨大的资源消耗,强调了可持续性评估的重要性。
本研究提出了BioVFM-21M数据集,涵盖多种生物医学图像,探讨模型扩展对任务性能的影响。BioVFM模型在12个医学基准测试中超越了现有最佳模型。
本研究提出了一种新的性能分析机制,通过动态调整系统配置,优化CPU频率和负载管理,显著提高边缘计算中的CPU资源利用率和能效。
本研究提出了一种灵活的框架,用于系统化评估基于大型语言模型的任务导向对话系统。该框架比较不同用户模拟器与对话系统的组合,分析架构、规模和提示策略对对话性能的影响,为构建高效的会话人工智能系统提供指导。
本研究提出NeuroSim V1.5,旨在提高传统冯·诺依曼架构的效率。通过与TensorRT集成、新的噪声注入方法及扩展设备支持,显著提升了ACIM加速器的建模准确性,实现了在设计空间中同时探索精度与硬件效率的可能性。
本研究针对限价单簿(LOB)表示学习中的特征提取和通用性不足问题,提出了标准化基准LOBench,并利用中国A股市场数据进行评估。研究展示了有效提取可转移特征的方法及其在不同任务中的优势,为未来研究提供了可复制的框架和指导。
本研究探讨了文本数据中的说话者识别问题,提出了一种基于大型预训练模型的模糊指纹方法。通过整合说话者特定令牌和上下文建模,显著提高了识别准确率,并在多个数据集上表现优越,为文本基础的说话者识别提供了重要见解。
本研究探讨无人机带来的安全挑战,全面审查反无人机技术,重点关注分类、检测和跟踪。提出新方法,指出实时性能和隐身检测的不足,强调开发适应性强的反无人机系统的必要性。
本研究提出了BoTTA基准评估方法,以应对移动和边缘设备上测试时适应(TTA)的挑战,尤其是在资源有限的环境中。研究表明,许多现代TTA算法在小数据集上表现不佳,难以适应未见类别,为实际应用提供了指导。
本研究评估了电子商务中图像嵌入的基础模型,发现全面微调模型表现优异,而文本-图像和自监督嵌入在较少训练下也能达到相似效果。顶层微调被证实为降低计算成本的有效替代方案,为嵌入选择和微调策略提供了实用指导。
本研究提出了Prism框架,利用蒙特卡洛树搜索技术进行动态基准测试,以评估大规模语言模型(LLM)的代码生成能力,并揭示其性能限制。
本研究提出了“误导性图表问答基准”,用于评估多模态大语言模型识别误导性图表的能力。结果表明,现有模型在识别视觉误导方面存在局限性,并提出了新方法以提高解读准确性,为理解误导性图表提供了基础。
本研究探讨了基准数据污染对大规模语言模型评估的影响,并系统性检验了现有缓解策略的有效性。结果表明,现有策略未能显著提高抵御污染的能力,强调了设计更有效缓解策略的必要性。
本研究提出ECKGBench数据集,以解决大型语言模型在电子商务中的事实性评估不足问题,提升评估效率和可靠性,促进其实际应用。
本研究提出了MedAgentsBench基准,旨在评估复杂医学推理的不足,尤其是在多步骤临床推理和诊断形成方面。实验结果表明,最新的思维模型在这些任务中表现优异,而高级搜索代理方法具有较高的性价比,推动了医学问答领域的发展。
本研究提出了一种新方法,旨在分析和优化动态复杂的智能AI系统,克服传统评价方法的局限性。通过用户研究,识别非确定性执行流程的挑战,并引入分类法以增强可观察性,推动智能AI系统的自适应和可解释性发展。
本研究提出了一种新基准测试工具,通过动态生成变体,解决了静态数据集导致的可靠性不足问题,有效评估了代码大语言模型的推理能力,结果显示在数据污染风险下仍能提供一致可靠的评估。
本研究提出了《协作超煮》基准测试,以评估大型语言模型的协作能力。通过多代理框架和新评估指标,研究发现模型在目标理解方面表现良好,但在积极协作和适应性方面存在差异。
文章提到了一些性能分析和调试工具,包括 profiling、benchmarking、ptrace、ftrace、strace、ltrace、perf、flamegraph、binary、kernelshark、kcov 和 gcov。
完成下面两步后,将自动完成登录并继续当前操作。