本研究提出了一种新训练目标,通过对语义表示施加约束,增强正样本对齐。同时,针对BERT模型的注意力沉没现象,提出交叉注意力结构,以提升CLS标签的注意力和池化质量。该方法在多个语义文本相似度任务中表现优异。
本研究提出PASTA方法,解决条件3D形状生成中的信息损失和用户意图最大化问题。通过融合用户素描和文本描述,提升了素描的语义表示和部件级编辑能力,实现了先进的素描到3D形状生成效果。
耶鲁大学等研究人员提出了MindLLM模型,旨在将fMRI信号解码为文本,克服现有方法的局限性。该模型通过脑指令调整(BIT)增强语义表示能力,评估结果显示其在多项任务中优于基线,具备良好的适应性和可解释性,推动脑机接口的发展。
本研究提出了BrainWavLM模型,通过低秩适配微调WavLM编码模型,提升了对语言刺激反应的预测能力,增强了语音刺激的语义表示,展现出更高的编码性能和稳定性。
本研究提出了一种新框架,结合图变换器架构与LLM增强的节点特征,以克服现有图学习方法在深层文本语义捕捉上的局限。通过利用LLM生成丰富的语义表示,显著提升了节点分类任务中的图学习模型性能,展示了图网络与语言模型结合的潜力。
本文探讨了人机对话中的语义表示,提出了对话-AMR注释和多层对话结构注释模式,以揭示发言者间的语义关联,最终实现物理机器人与人类的双向对话与导航。
本研究提出了ContextIQ系统,旨在解决视频检索中对复杂内容理解的局限性。该系统通过多模态专家生成语义视频表示,提高检索准确性,改善品牌安全与内容过滤,并增强上下文广告效果。
该研究提出了一种新方法来丰富HuBERT的语义表示,通过应用主题模型为每个话语生成主题标签,并将主题标签用作教师来添加辅助的主题分类任务,以无监督的方式融入额外的全局语义信息。实验证明,该方法在大多数任务中实现了与基准方法相当或更好的性能。
本文通过几何视角揭示了Transformer操作的内部机制,说明层归一化将潜在特征限制在超球面上,从而塑造了单词的语义表示。通过探究GPT-2模型,发现了早期层中的清晰查询-键注意力模式,并构建了关于注意力头部的特定主题性的先前观察。通过这些几何洞察,给出了Transformer的直观理解。
本文研究了Vision-and-Language Navigation模型中的环境偏差问题,发现底层视觉外观对代理模型有直接影响。通过使用较少底层视觉信息的语义表示形式,能够更好地推广到未见过的测试环境中。实验证明,这种探索性语义特征能够显著降低已看和未见之间的性能差距,并与最先进模型具有竞争力。
该论文提出了ManiGaussian方法,用于多任务机器人操作。该方法通过未来场景重建挖掘场景动态性,利用语义表示预测最佳机器人动作。评估结果显示,ManiGaussian在10个RLBench任务的166个变体上提高了13.1%的成功率。
本文从几何视角揭示了Transformer操作的内部机制,说明层归一化将潜在特征限制在超球面上,塑造单词的语义表示。通过探究GPT-2模型,发现了早期层中的清晰查询-键注意力模式,并构建了关于注意力头部的特定主题性的先前观察。利用这些洞察,将Transformer描述为沿着超球面的词粒子的轨迹的建模过程。
SeaEval是一个多语种基础模型的评估基准,研究了模型对自然语言的理解、推理能力以及对文化实践、细微差别和价值观的理解。研究发现模型在给予释义指令时表现出不同的行为,需要更具有泛化能力的语义表示和增强的多语种上下文化能力。
本文介绍了TGAN,一种生成式模型,用于学习未标记视频的语义表示并生成视频。该模型通过时间生成器和图像生成器解决了现有GAN方法生成视频时的问题。采用了Wasserstein GAN模型和稳定的端到端训练方法以确保训练的稳定性。实验结果证明了该方法的有效性。
本文提出了一个综合考虑专利信息的专利分类框架,通过传递和聚合同级和不同级别的信息来推导IPC代码的语义表示。通过双通道聚合机制,整合相应申请人的先前专利。最后,结合IPC代码语义和申请人的顺序偏好的专利文本的上下文信息进行预测。实证分析表明该方法优于现有方法,并展示了该模型捕捉申请人的时间模式和IPC代码之间的语义依赖关系的能力。
完成下面两步后,将自动完成登录并继续当前操作。