小红花·文摘

独占自注意力

Apple Machine Learning Research ·

本研究提出JELLY框架，解决对话语音合成中的上下文和情感识别问题。通过微调大型语言模型，JELLY能够自然生成符合对话情感的语音，实验结果表明其在情感上下文建模方面表现优异。

JELLY: A Conversational Speech Synthesis Framework Integrating Emotion Recognition and Contextual Reasoning with Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种名为LBA-MCNet的显著对象检测器，旨在提高光学遥感图像中边界特征识别和前景背景建模的效率。该方法通过边缘特征自适应平衡调整和全球分布亲和学习模块，实现了更精确的目标定位和上下文建模，实验结果显示其在28种先进方法中表现优越。

Localization, Balance, and Affinity: Application of a More Powerful Multifaceted Collaborative Salient Object Detector in Remote Sensing Images

BriefGPT - AI 论文速递 ·

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

机器之心 ·

本文介绍了一种变分贝叶斯方法和多种神经网络模型，用于上下文建模和图像中的对象定位。这些模型在多个数据集上表现优异，具有高效性和可解释性，特别是在弱监督学习和多模态交互方面，推动了自然语言处理与计算机视觉的结合。

通过渐进理解提升弱监督指向图像分割

BriefGPT - AI 论文速递 ·

本文回顾了图像定位领域的多种方法，指出现有数据集的偏差影响模型性能。研究提出了新的视觉定位框架和数据集，强调上下文和关系建模的重要性，并展示了在多个数据集上的优越性能。

ResVG：增强多实例视觉定位中的关系和语义理解

BriefGPT - AI 论文速递 ·

本文探讨了多种视频字幕生成方法，包括多任务学习模型、密集视频字幕框架和基于检索句子的生成技术。这些方法通过优化视频内容理解和上下文建模，显著提升了字幕生成性能，并在多个数据集上取得了优异结果。此外，研究还提出了一个大规模情感视频数据集eMotions，以支持短视频情感分析研究。

情感视频字幕的双路径协同生成网络

BriefGPT - AI 论文速递 ·

本文综述了密集视频字幕生成（DVC）技术，强调事件间的相互关系和上下文建模。介绍了多种DVC框架和模型，包括基于时间依赖性和强化学习的生成网络，以及利用未标记视频进行预训练的方法。这些新方法在多个数据集上显著提升了性能，推动了DVC领域的发展。

DIBS: 通过伪边界丰富和在线优化提升无标签视频的密集视频字幕

BriefGPT - AI 论文速递 ·

本文提出了多种基于大型语言模型（LLM）的新框架和方法，包括增强检索增强机器学习（RRAML）、多模态大语言模型修复助理（LLMRA）和LLaRA，旨在提升文本输入的上下文建模、图像修复和密集检索的性能。这些方法在多意图口语理解和特定领域问答中表现优异，显著提高了模型的准确性和效率。

LARA：语言适应检索增强多轮意图分类的语言模型

BriefGPT - AI 论文速递 ·

现代计算机视觉处理大图像的方式有降采样和裁剪，但会导致信息和上下文损失。研究人员提出了xT框架，可以在GPU上对大图像进行全局上下文与局部细节的建模。通过引入嵌套分词方案，可以提高准确度和F1分数，适用于大图像中的上下文相关分割。

xT：用于大图像中更大上下文的嵌套标记化

BriefGPT - AI 论文速递 ·

本文提出了一种弱监督视频异常检测框架，实现了高效上下文建模和增强语义可区分性，实验结果表明在三个具有挑战性的数据集上实现了竞争性的性能，某些异常子类的检测准确率也得到了极大的提高。

基于片段异常关注的弱监督视频异常检测

BriefGPT - AI 论文速递 ·

该文介绍了一种新的密集视频字幕框架，通过建模视频中事件的时间依赖性和利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在 ActivityNet Captions 数据集上，该方法表现出色。

准确快速压缩视频字幕生成

BriefGPT - AI 论文速递 ·