本研究提出了一种新的任务:在实时3D场景中进行语言指导的物体放置。建立了基准和评估协议,并提供了训练数据集,首次提出了基线方法,以评估通用3D大语言模型的性能。
本研究提出了一个统一的基准和评估协议,以解决深度强化学习中的塑性丧失问题,并推出开源框架“塑形”,提供多种减轻方法和评估指标,推动该领域的研究进展。
本研究提出了一种新评估协议,解决了自我监督学习在3D场景理解中的局限性。通过掩蔽场景建模,所开发的自我监督模型在性能上与有监督模型相当,并超越了现有方法。
本研究探讨了动态场景图生成中的精度-召回权衡、三元组重要性意识不足和评估协议不当等问题。通过分析视频中的大型多模态模型,发现简单解码结构能够有效解决这些问题,并在少量微调下实现最佳效果,展现出重要的研究潜力。
本研究探讨了图学习在药物设计和分子属性预测中的基准挑战,指出现有基准缺乏实际应用的关注,建议采用更具意义的基准和评估协议,以促进研究进展和领域合作。
本研究探讨大型语言模型(LLMs)在自然语言生成评估中的偏见问题,提出多维度独立评估系统以提高评估质量。研究发现LLMs存在显著偏见,且与人类偏好不一致,强调需开发更可靠的评估协议和缓解策略,以提升模型的公平性和准确性。
本研究解决了神经文本到音频生成中的可控性和评估问题,提出了有效的评估协议,发现大模型表现优异,轻量化方法也展现出潜力,为音频质量和合成器架构提供了重要方向。
本研究探讨视觉-语言模型在空间表达中的模糊性,提出评估协议COMFORT以系统性评估其空间推理能力。结果显示,这些模型在鲁棒性和跨文化适应性方面存在显著不足,强调了空间推理中的模糊性和文化差异的重要性。
本文介绍了基于大型语言模型(LLMs)的网络代理技术的进展,包括WebAgent、WebVoyager和AutoWebGLM等新模型。这些模型通过与真实网站交互,提高了网页导航任务的成功率,并提出了新的评估协议和框架,以应对复杂用户指令和长期任务的挑战。同时,研究还探讨了多模态代理的性能及未来发展方向。
本文提出了一种新方法——多模式复合关联分数(MCAS),用于测量多模式生成模型中的性别偏见。研究发现DALL-E 2和Stable Diffusion等模型存在性别和种族偏见,并提出了分布对齐损失和有偏直接微调等技术以降低这些偏见。研究强调了解决生成模型偏见的紧迫性,并提供了评估协议以分析性别指示对生成图像的影响。
本文探讨了知识图谱补全(KGC)技术,提出了评估协议以解决模型偏差,并对多种现有方法进行了实验,包括基于常识的嵌入框架、KG-S2S生成框架、网络预训练的补全框架(NetPeace)及基于Transformer的模型(PatReFormer)。此外,综述了知识图谱嵌入设计的主要分支及新方法,提出知识感知推理模型(MUSE),在多个数据集上显著提高了关系预测准确性。
本文探讨计算机视觉中的模型学习偏见及其缓解方法,提出改进的评估协议和新数据集,以评估去偏算法的有效性。通过对比学习和新损失函数,研究展示了如何在保持性能的同时更公平地代表输入属性。强调识别和消除偏见的重要性,并提出未来研究方向。
本文探讨了合成图像检测的最新进展,提出了一种基于反转特征的新型检测器,能够有效识别高视觉保真度的生成图像。研究表明,该检测器在多种设置下表现优异,并引入了新的评估协议以减少偏见。此外,提出了一种无需训练的水印框架,增强了图像的可追溯性和安全性。
本文介绍了多种弱监督目标定位方法的改进,包括引入注意力机制、参数化上采样和新评估协议等。这些方法在CUB-200和ImageNet-1K数据集上显著提高了定位准确度,解决了局部激活问题,并提出了未来研究方向。
本文介绍了开放世界目标检测方法OCPL及其模块,验证了其有效性。提出了新的评估协议和框架,改进了未知对象检测性能,并在遥感物体检测中取得了良好效果。此外,研究还探讨了弱监督和半监督目标检测方法,展示了在多个数据集上的优越表现。
本文研究了文本后门攻击对NLP系统的威胁,并提出了评估协议和开源工具包OpenBackdoor。文章探讨了攻击和防御模型的性能,并提出了聚类-based的防御策略CUBE。
本文提出了一种基于条件扩散模型的图像到图像转换框架,超越了所有任务上的强基线,无需任务特定的超参数调整、架构定制或辅助丢失或新技术。作者还提倡了一个基于ImageNet的统一评估协议,以推进图像到图像翻译研究。最后,作者展示了一个通用的,多任务扩散模型的执行效果与任务特定的专家模型相当或更好。
研究表明,基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了成功。LLM-KICK评估协议揭示了当前最先进的压缩方法的优缺点,并展示了稀疏化和量化对于语言任务的影响。希望这项研究能够促进更好的语言模型压缩方法的发展。
本文总结了网络表征学习技术的文献,分类和分析了评估协议,比较了算法性能和复杂度,并提出未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。