小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁

DeepSeek-AI推出的DeepSeek-OCR 2通过新架构DeepEncoder V2,解决了文档OCR中的布局解析和语义对齐问题,显著提升了文档理解准确率,尤其在公式和表格解析方面表现突出。

在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁

HyperAI超神经
HyperAI超神经 · 2026-02-04T06:31:58Z
ETVA:通过细粒度问题生成与回答评估文本到视频的对齐

本文提出了一种新方法ETVA,用于精确评估文本提示与生成视频之间的语义对齐。ETVA通过生成细粒度问题并进行回答,克服了现有指标的局限性。实验结果表明,ETVA与人类判断的相关性显著高于现有指标,并构建了一个包含2000个提示和12000个问题的基准,推动了文本到视频生成的发展。

ETVA:通过细粒度问题生成与回答评估文本到视频的对齐

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z

本研究提出了BioD2C框架,旨在解决生物医学视觉问答模型在复杂任务中的多模态语义对齐不足问题。通过双层语义一致性约束,该框架提升了模型的视觉特征学习能力,并在新数据集BioVGQ上训练,展现出优异的性能和适应性。

BioD2C: A Dual-Level Semantic Consistency Constraint Framework for Biomedical Visual Question Answering

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本研究探讨大型语言模型在社交媒体互动中的应用,提出了一种行动引导的回应生成方法。结果表明,few-shot LLM在回应生成方面与真实帖子语义的对齐度更高,显示出良好的应用潜力。

Can Large Language Models Simulate Social Media Interactions? A Study on Action-Guided Response Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出一种结合强化学习的新框架,以解决大型语言模型生成文本时的逻辑一致性和结构连贯性问题。实验结果表明,该方法在文本连贯性和语义对齐方面显著优于基线模型。

Neural Context Reinforcement Framework for Logical Structure Language Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-20T00:00:00Z
语言模型的革命:LEP及其对自然语言处理适应性的影响

LEP(学习嵌入传播)是语言模型的重要进展,旨在提升自然语言处理(NLP)在数据稀缺语言中的适应性。通过利用英语的上下文知识,LEP改善了模型的语义对齐和知识转移,提升了性能。其高效的预训练管道和成本效益使其在多语言应用中具备潜力,但在实施中仍面临数据质量和文化差异的挑战。

语言模型的革命:LEP及其对自然语言处理适应性的影响

DEV Community
DEV Community · 2025-01-04T08:05:08Z

本研究提出Smooth-Foley模型,旨在解决视频到音频生成中的语义和时间对齐问题。该模型通过文本标签的语义指导,提升了生成音频的质量和与物理法则的一致性,表现优于现有模型。

Smooth Foley: Generating Continuous Audio for Video Under Semantic Guidance

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本研究提出了一种新框架,通过对ItemID进行语义对齐和引入监督学习任务,解决推荐系统中稀疏语义与大型语言模型之间的差异。实验结果表明,该模型显著提高了召回率,并增强了推荐系统的扩展性。

Semantic Convergence: Harmonizing Recommender Systems through Two-Stage Alignment and Behavioral Semantic Tokenization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出YingSound模型,解决产品视频生成音效时标记数据不足的问题。该模型通过条件流匹配变换器实现音频与视觉的语义对齐,并引入多模态思维链方法,实验结果表明其能有效生成高质量的同步音效。

YingSound: Video-Guided Sound Effect Generation Controlled by Multimodal Thinking Chains

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究提出了一种新的类不平衡跨域分布外检测方法(CCOD),通过不确定性感知自适应语义对齐网络(UASA)构建标签驱动的原型,显著提升了检测性能,实验结果表明其优于现有方法。

Your Data Is Not Perfect: Cross-Domain Out-of-Distribution Detection for Class-Imbalanced Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出了LayoutVLM框架,旨在解决大型语言模型在生成符合物理规律的3D场景及遵循输入指令方面的不足。实验结果表明,LayoutVLM显著提升了布局生成的语义对齐效果。

LayoutVLM:通过视觉-语言模型的可微优化实现3D布局

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z

本研究提出了一种新的全身MR到CT合成框架,通过结构引导合成、空间对齐和语义对齐模块,提升了合成CT图像的质量,并验证了其在PET衰减校正中的有效性。

Structure-Guided MR-to-CT Synthesis Method and Its Spatial and Semantic Alignment in Whole-Body PET/MR Imaging Attenuation Correction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z
通过对比学习弥合多语言嵌入中的语言差距

多语言模型存在“语言差距”问题,即不同语言中相同意义的短语未能紧密对齐。研究表明,采用对比学习技术可以显著改善跨语言语义对齐,减少这一差距。Jina-embeddings-v3模型在多语言文本嵌入中表现优异,经过对比学习后,语义相似文本的嵌入几乎不再按语言聚类,从而提升了跨语言应用的效果。

通过对比学习弥合多语言嵌入中的语言差距

Jina AI
Jina AI · 2024-10-09T12:42:22Z
扩散模型中的语义理解:文本到图像潜在反演

LEGO方法在扩散模型中学习可分解和可逆的文本到图像表示,不仅生成匹配文本的图像,还能反转文本提示为潜在表示。研究表明,LEGO在图像质量和语义对齐方面优于标准模型,尽管训练复杂性增加。它为多模态AI系统的发展奠定了基础,可能推动更复杂的文本引导图像操作和跨模态推理。

扩散模型中的语义理解:文本到图像潜在反演

DEV Community
DEV Community · 2024-10-03T09:16:39Z

该研究提出了一种新型目标检测方法DETR,利用Transformer架构和全局损失,显著提升了检测和分割性能。通过多查询本地化、知识蒸馏和语义对齐等技术,改善了检测精度和收敛速度。此外,关系编码器和新数据集的引入进一步优化了目标检测效果,展示了DETR在多个任务中的优越性能。

通过查询选择进行知识蒸馏的检测变压器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z
ConvoFusion: 用于语音手势合成的多模态对话扩散 | CVPR 2024

最近的研究提出了一种新的手势合成方法ConvoFusion,可以生成与语义对齐的手势。该方法通过关注特定词语来进行控制,并发布了DnD Group Gesture数据集来进一步推进多方互动手势的研究。实验结果表明,使用词级引导机制可以增强生成手势的语义一致性。

ConvoFusion: 用于语音手势合成的多模态对话扩散 | CVPR 2024

实时互动网
实时互动网 · 2024-08-05T07:11:46Z

本文介绍了一种名为VGT的视频图形转换器模型,旨在解决视频问答中的动态关系推理问题。VGT通过动态图形变换器模块编码视频,并结合视频和文本变换器进行问答,在多项视频语言任务中表现出色。此外,研究提出的多级对齐训练方案显著提高了视频与语言的语义对齐效果。

通过时空图变换进行视频 - 语言对齐预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

本文介绍了基于扩散模型的人体动作生成方法,重点在于细粒度控制、语义对齐和高质量合成。研究提出的新算法GMD和LGTM显著提升了文本驱动的动作生成效果,尤其在复杂描述下表现优越。通过层次化和多阶段流程,解决了语义差异问题,实现了更准确的动作生成。

基于本地动作引导的运动扩散模型用于文本到动作生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本文探讨了自监督学习的机制及其在表示学习中的影响,强调其在样本聚类和语义对齐方面的重要性。研究表明,自监督学习在音频处理、自动驾驶和人体活动识别等领域具有广泛应用,且相较于监督学习,表现出更强的鲁棒性和特征编码能力。

基于物体交互的自监督视觉学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-09T00:00:00Z

最近的文本到图像扩散模型在生成高质量图像方面取得了显著进展,但在提示语义遵循上仍存在困难。为此,提出了一种无需训练的方法,通过监控概念引导轨迹来改善模型的语义对齐。实验结果表明,该方法有效提升了生成图像与文本描述的一致性。

通过注意力引导的特征增强修复文本到图像扩散模型中的灾难性忽视

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码