小红花·文摘

该研究探讨了神经网络和多模态方法在讽刺新闻检测中的有效性。通过应用对抗性组件和生成预训练转换器（GPT）模型，研究显示在多语言和不同文化背景下的讽刺检测取得了显著进展，链式思维提示对模型性能有积极影响。

让讽刺变得无趣：通过利用生成式大型语言模型减少讽刺语料库的风格偏见

BriefGPT - AI 论文速递 ·

本研究提出了一种多模态方法，结合变压器文本分类与语言特征分析，帮助教育工作者快速评估文献可读性，适应课堂需求，显著提高文本与英国教育标准的匹配度，促进数据驱动的决策。

What Differentiates Educational Literature? A Multimodal Fusion Approach of Transformers and Computational Linguistics

BriefGPT - AI 论文速递 ·

本文介绍了一种多模态方法，通过音频和视觉信息提升厨房环境中的动作识别性能，动词分类上实现了5.18%的改进。同时，提出了自我中心视频-语言预训练方法和高效闭环视频模型训练方法，展示了在不同任务中的优异表现，为构建高效的视觉-语言模型和机器人助手奠定了基础。

自我运动的多模态语言模型 EgoLM

BriefGPT - AI 论文速递 ·

本文介绍了多种文档解析技术，如DocParser、DocBank和DocFormer，旨在提升文档结构解析性能。研究表明，基于弱监督学习和多模态方法的模型在文档布局分析中表现优越，能够准确识别复杂排版的文档信息。此外，DocXChain工具链可将非结构化文档转换为结构化表示，提高信息提取效率。

Docling技术报告

BriefGPT - AI 论文速递 ·

本文探讨了记忆驱动Transformer在生成放射学报告中的应用，提出了XrayGPT和MAIRA-1等模型，并通过实验验证了其在图像质量和文本生成方面的优势。这些模型有效降低了放射科医生的工作量，提高了报告的准确性和流畅性，同时解决了图像与文本的对齐问题。研究表明，结合视觉编码器和大型语言模型的多模态方法在医学报告生成中前景广阔。

R2GenCSR：基于大型语言模型的X射线医学报告生成的上下文样本检索

BriefGPT - AI 论文速递 ·

本文介绍了一种基于卷积神经网络的新方法，用于社交媒体图像中灾害损失的定位与量化。研究开发了基准数据集，利用卫星图像进行变化检测，并提出了新的灾害影响指数（DII）。通过xBD数据集，优化了建筑损伤评估的效率。新型多模态方法MMST在飓风后建筑损害分类中表现出92.67%的准确率，显示出其在灾后评估中的应用潜力。

街景与超高分辨率卫星图像的跨视角地理定位与灾害映射：以飓风IAN为案例研究

BriefGPT - AI 论文速递 ·

本文探讨了情感计算的多模态方法，包括基于注意力机制的情感识别模型和脑电情感识别网络。这些模型在情感和情绪识别方面表现优异，能够有效捕捉人类内部状态，为未来研究提供新的方向和技术基础。

通过信息融合识别人脑中的分层情绪区域

BriefGPT - AI 论文速递 ·

该研究提出了一种新型多模态方法（FIRE），能够通过食品图像生成标题、配料和烹饪说明，支持个性化食谱和自动化烹饪。实验验证了其有效性，显示出在食品计算领域的广泛应用潜力。

深度图像至食谱翻译

BriefGPT - AI 论文速递 ·

本文探讨了基于密集视频字幕的足球比赛评论生成，提出了GOAL基准测试和SoccerNet-Echoes数据集，旨在提升足球内容的可理解性和可访问性。研究展示了自动语音识别技术在运动分析中的应用，强调多模态方法的重要性，并提出了新的任务和模型以推动体育比赛摘要的研究。

MatchTime: 自动足球比赛评论生成

BriefGPT - AI 论文速递 ·

本文总结了可解释人工智能（XAI）领域的最新进展，探讨了多模态方法、评价指标及未来研究方向。研究指出现有解释方法在深度学习中的不足，提出了改进建议，并强调公平性和可追溯性在实际应用中的重要性。

可解释人工智能与多重共线性：当前方法的简要综述

BriefGPT - AI 论文速递 ·

本文介绍了同时机器翻译（SiMT）的最新研究进展，提出了SiLLM模型，通过大型语言模型优化翻译策略。研究表明，词级操作优于子词级操作，视觉信息的引入可提升翻译质量。实验结果显示，基于Mixture-of-Experts Wait-k机制的模型在不同延迟下实现了最佳翻译效果，验证了多模态方法在同传翻译中的有效性。

Agent-SiMT：基于大型语言模型的代理辅助同时机器翻译

BriefGPT - AI 论文速递 ·

该论文提出了多种自然语言处理和语音识别的研究成果，包括MAD基准测试、荷兰方言发音差异识别、跨方言英语语音识别和自然语言生成多样性评估。研究表明，基于声学模型的方法优于传统方法，并提出了多模态方法以提升音频内容审核性能。

MAD Speech：语音声音多样性的度量

BriefGPT - AI 论文速递 ·

该研究利用特征聚合方法 NetVLAD++ 在足球广播中实现行为定位，基于 SoccerNet-v2 数据集训练，取得 53.4% 的平均 MAP，提升 12.7%。文章探讨了足球动作场景理解的挑战，强调多模态方法的潜力，并提出基于图的方法和主动学习框架，以提高行为检测精度。

全球与本地场景实体建模以实现精确的动作检测

BriefGPT - AI 论文速递 ·

本文介绍了一种基于音频和视觉信息的多模态方法，显著提升了厨房环境中的动作识别性能，尤其是在动词分类上提高了5.18%。研究探讨了多模态学习、时间上下文和自我监督学习等技术，强调了音频标签在视频理解中的重要性。

SoundingActions：从自述的视觉记录视频中学习动作的声音

BriefGPT - AI 论文速递 ·

本研究探讨了图像检索中的多模态方法，提出了ComposeAE和SSN等新模型，利用深度学习提升图像与文本的匹配效果。实验结果表明，这些方法在多个数据集上优于现有技术，显著改善了检索性能。

利用构图线索增强历史图像检索

BriefGPT - AI 论文速递 ·

京东认为多模态方法更适合理解和描述新商品和内容，传统行为模型在新商品或用户行为稀疏情况下可靠性下降。深度学习工程师需要掌握深度学习算法和模型的理解、模型训练和调优能力，了解大规模数据处理和分布式计算技术，熟悉模型部署和性能优化方法，具备软件工程和工程实践技能，并具备解决问题和创新能力。

3月28日，一起“鹏城”万里！

京东科技开发者 ·

该文章介绍了一个基于Minecraft仿真器的多模态体现系统，能够在难度较大的任务中获得22%的成功率，在严重依赖背景的任务中获得91%的成功率，并在多样任务上表现出显著能力。

MP5: 基于主动感知的多模态开放式系统在 Minecraft 中的实体化

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的方法Prot2Text，使用图神经网络和大型语言模型在编码器-解码器框架中，以自由文本形式预测蛋白质的功能。该多模态方法综合蛋白质序列、结构和文本注释等多种数据类型，提供了详细准确的描述。通过从SwissProt中提取多模态蛋白质数据集对模型进行评估，结果表明了多模态模型的转变性影响，特别是图神经网络和大型语言模型的融合。

InstructProtein: 通过知识指导对齐人类和蛋白质语言

BriefGPT - AI 论文速递 ·

本文介绍了一种多模态方法，使用模拟的激光雷达数据和图像像素损失与可微分渲染相结合，优化物体在计算机图形场景中的位置。通过梯度下降完成物体位置优化，本文表明使用激光雷达可以更快地收敛。这种方法对于自动驾驶车辆具有潜在的有用性，可以用于确定场景中多个参与者的位置。同时，本文还提出了一种用于培训自动驾驶车辆的多种类型数据的模拟方法。

使用可微分的多模态学习进行 3D 物体定位

BriefGPT - AI 论文速递 ·