腾讯的7B模型通过RLVER框架解决了AI情商的三大困境,得分从13.3提升至79.2,表现与顶级模型相当。RLVER利用用户模拟器优化多轮对话,增强模型的情感理解和共情能力,避免了灾难性遗忘。
阿里通义实验室推出MaskSearch框架,提升大模型推理与搜索能力。小模型表现接近大模型,兼容监督微调和强化学习,显著提升开放域问答性能。通过检索增强型掩码预测任务,模型有效学习信息处理与搜索引擎使用,适应多领域任务。
本研究通过模仿人类反馈改进推理时间扩展技术,使用70B规模的Llama 3模型,在Arena Hard基准测试中取得92.7的最新性能,超越多种现有模型。
本研究针对现有的开放域问答系统在提示指令依赖性、计算开销大及检索覆盖不足等问题,提出了EmbQA嵌入框架。该框架通过改进查询表示和引入多样化候选生成机制,显著提高了系统的准确性和效率,展示了在多个基准测试中的优越表现。
科学家提出了新的基准测试TOMG-Bench,用于评估大型语言模型(LLM)在分子领域的生成能力。该基准涵盖分子编辑、优化和定制生成三个主要任务,旨在克服传统分子发现方法的局限性,推动LLM在该领域的应用。实验结果表明,开源模型在分子生成任务中表现优异,TOMG-Bench为评估LLM提供了新的视角。
本研究解决了房地产领域缺乏专用表格问答数据集的问题,推出了RETQA,这是首个大规模的开放域中文表格问答数据集。通过提出SLUTQA框架,结合大型语言模型与口语理解任务,显著提升了在该领域的问答准确性,推动了表格问答研究的发展。
图像识别是计算机视觉的基础任务,广泛应用于人脸和商品识别。PP-ShiTuV2是一个通用图像识别系统,包含主体检测、特征学习和向量检索模块,显著提升了细粒度识别效果,特别适合快速更新的零售商品识别。
本研究探讨开放域对话系统如何利用无结构文本作为外部知识源,指出现有系统在生成丰富回复和控制对话主题方面的不足。定义了无结构文本增强对话系统(UTEDS),总结相关数据集和模型,强调其对未来研究的重要性。
本研究针对单目开放域图像的3D几何恢复问题,提出了一种新颖的模型MoGe。该模型通过采用不受全局尺度和偏移影响的仿射不变表示,从单幅图像直接预测3D点图,使训练监督更加明确,从而提升几何学习的效果。实验证明,MoGe在各种未见数据集上显著超越了现有最先进的方法,展现出较强的泛化能力和高精确度。
本研究提出了交叉领域连续学习(CDCL)方法,通过跨任务关注机制实现了对先前任务特征的对齐,并在无监督的交叉领域学习中取得了良好性能。实验结果显示该方法在交叉领域连续学习挑战上表现出色,并提出了增量思想。
本研究针对开放域问答中大语言模型无法仅依赖内部知识生成正确答案的问题,提出了W-RAG方法。该方法利用大语言模型的排名能力生成弱标签数据,优化密集检索器的训练。实验结果表明,该方法显著提升了检索和问答的性能。
本研究提出了一种新颖的句子选择方法(FastFiD),用于解决开放域问答中推理效率低的问题。实验证明,该方法在保持模型性能的情况下,推理速度提升了2.3至5.7倍。
MVDream是一个多视图扩散模型,生成几何一致的多视图图像。利用预训练的图像扩散模型和3D资源渲染的多视图数据集,实现2D扩散的概括性和3D数据的一致性。解决现有方法中的3D一致性问题,并可用于个性化的3D生成。
本文研究了使用大型语言模型作为人机交互(HRI)的模型的潜力,并在三个社交数据集上进行了实验。结果显示,大型语言模型能够实现与定制模型相当的性能。同时,文章还讨论了当前的限制。研究结果表明,大型语言模型为人机交互的人类建模提供了一种有前途但不完整的方法。
提出了一种称为问题和路径增强的简单而有效的方法,通过对原始问题进行多步子问题的扩充和规划,从而提升检索性能,以及通过语言模型生成的自我生成路径来指导答案抽取,实验证明该方案优于现有技术且在现有的检索 - 生成模型中实现了显著的性能提升。
本文比较了三种自动评估方法,发现基于学习的指标是评估开放领域生成对话系统最有效的方法。作者提出了一种新的基于学习的评估指标 PONE,实验证明使用增强的正样本和有价值的负样本后,可以显著提高与人类判断的相关性,平均相关性提高达 13.18%。
该研究提出了一种新的框架,结合评估模型和提示性大语言模型,实现对对话的鲁棒性和多语言性评估。在多个基准测试中取得了最先进的成果,并在DSTC11中名列前茅,证明了提示性大语言模型的评估能力。
该研究介绍了EuroCity Persons数据集,该数据集提供了准确详细的交通场景中行人、骑车人和其他骑车人的标注。研究优化了四种深度学习方法来服务于新的对象检测基准测试。
本文介绍了一种名为混合增强学习来自 AI 反馈(HRLAIF)的方法,通过使用 AI 反馈进行增强学习,可以在大型语言模型(LLM)训练的快速策略迭代阶段比通过人类反馈进行增强学习具有更短的注释周期和更低的成本,提高效率。该方法通过增强 AI 注释的准确性,使模型在训练过程中的帮助更可靠,并通过 AI 进行红队行动,进一步提高模型的无害性。与之前的策略模型相比,HRLAIF 方法在满意率上实现了 2.08% 的增加,有效解决了基本 RLAIF 后满意率下降 4.58% 的问题。
我们提出了一种新颖的方法,通过选择上下文相关的短语来生成文本,并通过迭代的自我增强来加强训练阐述。实验证明,我们的模型在各种任务上表现出色,并在开放式文本生成中具有更高的生成质量。我们的模型在几个基准中实现了最佳性能和最低延迟。我们希望这项工作能够鼓励进一步研究。
完成下面两步后,将自动完成登录并继续当前操作。