小红花·文摘

腾讯的7B模型通过RLVER框架解决了AI情商的三大困境，得分从13.3提升至79.2，表现与顶级模型相当。RLVER利用用户模拟器优化多轮对话，增强模型的情感理解和共情能力，避免了灾难性遗忘。

7B模型“情商”比肩GPT-4o，腾讯突破开放域RL难题，得分直翻5倍

量子位 ·

阿里通义实验室推出MaskSearch框架，提升大模型推理与搜索能力。小模型表现接近大模型，兼容监督微调和强化学习，显著提升开放域问答性能。通过检索增强型掩码预测任务，模型有效学习信息处理与搜索引擎使用，适应多领域任务。

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

量子位 ·

本研究通过模仿人类反馈改进推理时间扩展技术，使用70B规模的Llama 3模型，在Arena Hard基准测试中取得92.7的最新性能，超越多种现有模型。

专用反馈和编辑模型增强开放域任务的推理时间扩展

BriefGPT - AI 论文速递 ·

本研究针对现有的开放域问答系统在提示指令依赖性、计算开销大及检索覆盖不足等问题，提出了EmbQA嵌入框架。该框架通过改进查询表示和引入多样化候选生成机制，显著提高了系统的准确性和效率，展示了在多个基准测试中的优越表现。

TOMG-Bench：大语言模型开放域分子生成新基准

机器之心 ·

本研究解决了房地产领域缺乏专用表格问答数据集的问题，推出了RETQA，这是首个大规模的开放域中文表格问答数据集。通过提出SLUTQA框架，结合大型语言模型与口语理解任务，显著提升了在该领域的问答准确性，推动了表格问答研究的发展。

RETQA：房地产领域的大规模开放域表格问答数据集

BriefGPT - AI 论文速递 ·

图像识别是计算机视觉的基础任务，广泛应用于人脸和商品识别。PP-ShiTuV2是一个通用图像识别系统，包含主体检测、特征学习和向量检索模块，显著提升了细粒度识别效果，特别适合快速更新的零售商品识别。

基于PP-ShiTuv2新增PaddleX图像识别模型产线，显著提升商品识别等细粒度开放域产业场景检索性能...

百度大脑 ·

本研究探讨开放域对话系统如何利用无结构文本作为外部知识源，指出现有系统在生成丰富回复和控制对话主题方面的不足。定义了无结构文本增强对话系统（UTEDS），总结相关数据集和模型，强调其对未来研究的重要性。

无结构文本增强开放域对话系统：系统性调查

BriefGPT - AI 论文速递 ·

本研究针对单目开放域图像的3D几何恢复问题，提出了一种新颖的模型MoGe。该模型通过采用不受全局尺度和偏移影响的仿射不变表示，从单幅图像直接预测3D点图，使训练监督更加明确，从而提升几何学习的效果。实验证明，MoGe在各种未见数据集上显著超越了现有最先进的方法，展现出较强的泛化能力和高精确度。

MoGe：通过最优训练监督解锁开放域图像的准确单目几何估计

BriefGPT - AI 论文速递 ·

本研究提出了交叉领域连续学习（CDCL）方法，通过跨任务关注机制实现了对先前任务特征的对齐，并在无监督的交叉领域学习中取得了良好性能。实验结果显示该方法在交叉领域连续学习挑战上表现出色，并提出了增量思想。

通过利用领域内类别感知原型增强开放域持续学习

BriefGPT - AI 论文速递 ·

本研究针对开放域问答中大语言模型无法仅依赖内部知识生成正确答案的问题，提出了W-RAG方法。该方法利用大语言模型的排名能力生成弱标签数据，优化密集检索器的训练。实验结果表明，该方法显著提升了检索和问答的性能。

W-RAG：用于开放域问答的弱监督密集检索

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的句子选择方法（FastFiD），用于解决开放域问答中推理效率低的问题。实验证明，该方法在保持模型性能的情况下，推理速度提升了2.3至5.7倍。

FastFiD：通过句子选择提高开放域问答的推理效率

BriefGPT - AI 论文速递 ·

MVDream是一个多视图扩散模型，生成几何一致的多视图图像。利用预训练的图像扩散模型和3D资源渲染的多视图数据集，实现2D扩散的概括性和3D数据的一致性。解决现有方法中的3D一致性问题，并可用于个性化的3D生成。

DreamStory: 基于 LLM 引导的多主题一致扩散的开放域故事可视化

BriefGPT - AI 论文速递 ·

本文研究了使用大型语言模型作为人机交互（HRI）的模型的潜力，并在三个社交数据集上进行了实验。结果显示，大型语言模型能够实现与定制模型相当的性能。同时，文章还讨论了当前的限制。研究结果表明，大型语言模型为人机交互的人类建模提供了一种有前途但不完整的方法。

基于大型语言模型的零射击提示在开放域人机对话中的角色扮演

BriefGPT - AI 论文速递 ·

提出了一种称为问题和路径增强的简单而有效的方法，通过对原始问题进行多步子问题的扩充和规划，从而提升检索性能，以及通过语言模型生成的自我生成路径来指导答案抽取，实验证明该方案优于现有技术且在现有的检索 - 生成模型中实现了显著的性能提升。

基于 LLMs 的增强查询和段落的开放域问答检索增强生成

BriefGPT - AI 论文速递 ·

本文比较了三种自动评估方法，发现基于学习的指标是评估开放领域生成对话系统最有效的方法。作者提出了一种新的基于学习的评估指标 PONE，实验证明使用增强的正样本和有价值的负样本后，可以显著提高与人类判断的相关性，平均相关性提高达 13.18％。

PairEval：使用配对比较进行开放域对话评价

BriefGPT - AI 论文速递 ·

该研究提出了一种新的框架，结合评估模型和提示性大语言模型，实现对对话的鲁棒性和多语言性评估。在多个基准测试中取得了最先进的成果，并在DSTC11中名列前茅，证明了提示性大语言模型的评估能力。

结构化信息的重要性：将抽象意义表示引入到 LLMs 中以提高开放域对话评估

BriefGPT - AI 论文速递 ·

该研究介绍了EuroCity Persons数据集，该数据集提供了准确详细的交通场景中行人、骑车人和其他骑车人的标注。研究优化了四种深度学习方法来服务于新的对象检测基准测试。

Entity6K：用于真实世界实体识别的大型开放域评估数据集

BriefGPT - AI 论文速递 ·

本文介绍了一种名为混合增强学习来自 AI 反馈（HRLAIF）的方法，通过使用 AI 反馈进行增强学习，可以在大型语言模型（LLM）训练的快速策略迭代阶段比通过人类反馈进行增强学习具有更短的注释周期和更低的成本，提高效率。该方法通过增强 AI 注释的准确性，使模型在训练过程中的帮助更可靠，并通过 AI 进行红队行动，进一步提高模型的无害性。与之前的策略模型相比，HRLAIF 方法在满意率上实现了 2.08% 的增加，有效解决了基本 RLAIF 后满意率下降 4.58% 的问题。

HRLAIF：通过 AI 反馈在开放域强化学习中的有用性和无害性改进

BriefGPT - AI 论文速递 ·

我们提出了一种新颖的方法，通过选择上下文相关的短语来生成文本，并通过迭代的自我增强来加强训练阐述。实验证明，我们的模型在各种任务上表现出色，并在开放式文本生成中具有更高的生成质量。我们的模型在几个基准中实现了最佳性能和最低延迟。我们希望这项工作能够鼓励进一步研究。

生成还是检索？对医疗开放域问答人工上下文有效性的研究

BriefGPT - AI 论文速递 ·

7B模型“情商”比肩GPT-4o，腾讯突破开放域RL难题，得分直翻5倍

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

专用反馈和编辑模型增强开放域任务的推理时间扩展

超越提示：一种高效的开放域问答嵌入框架

TOMG-Bench：大语言模型开放域分子生成新基准

RETQA：房地产领域的大规模开放域表格问答数据集

基于PP-ShiTuv2新增PaddleX图像识别模型产线，显著提升商品识别等细粒度开放域产业场景检索性能...

无结构文本增强开放域对话系统：系统性调查

MoGe：通过最优训练监督解锁开放域图像的准确单目几何估计

通过利用领域内类别感知原型增强开放域持续学习

W-RAG：用于开放域问答的弱监督密集检索

FastFiD：通过句子选择提高开放域问答的推理效率

DreamStory: 基于 LLM 引导的多主题一致扩散的开放域故事可视化

基于大型语言模型的零射击提示在开放域人机对话中的角色扮演

基于 LLMs 的增强查询和段落的开放域问答检索增强生成

PairEval：使用配对比较进行开放域对话评价

结构化信息的重要性：将抽象意义表示引入到 LLMs 中以提高开放域对话评估

Entity6K：用于真实世界实体识别的大型开放域评估数据集

HRLAIF：通过 AI 反馈在开放域强化学习中的有用性和无害性改进

生成还是检索？对医疗开放域问答人工上下文有效性的研究