小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁

DeepSeek-AI推出的DeepSeek-OCR 2通过新架构DeepEncoder V2,解决了文档OCR中的布局解析和语义对齐问题,显著提升了文档理解准确率,尤其在公式和表格解析方面表现突出。

在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁

HyperAI超神经
HyperAI超神经 · 2026-02-04T06:31:58Z
ETVA:通过细粒度问题生成与回答评估文本到视频的对齐

本文提出了一种新方法ETVA,用于精确评估文本提示与生成视频之间的语义对齐。ETVA通过生成细粒度问题并进行回答,克服了现有指标的局限性。实验结果表明,ETVA与人类判断的相关性显著高于现有指标,并构建了一个包含2000个提示和12000个问题的基准,推动了文本到视频生成的发展。

ETVA:通过细粒度问题生成与回答评估文本到视频的对齐

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z

本研究提出了BioD2C框架,旨在解决生物医学视觉问答模型在复杂任务中的多模态语义对齐不足问题。通过双层语义一致性约束,该框架提升了模型的视觉特征学习能力,并在新数据集BioVGQ上训练,展现出优异的性能和适应性。

BioD2C: A Dual-Level Semantic Consistency Constraint Framework for Biomedical Visual Question Answering

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本研究探讨大型语言模型在社交媒体互动中的应用,提出了一种行动引导的回应生成方法。结果表明,few-shot LLM在回应生成方面与真实帖子语义的对齐度更高,显示出良好的应用潜力。

Can Large Language Models Simulate Social Media Interactions? A Study on Action-Guided Response Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出一种结合强化学习的新框架,以解决大型语言模型生成文本时的逻辑一致性和结构连贯性问题。实验结果表明,该方法在文本连贯性和语义对齐方面显著优于基线模型。

Neural Context Reinforcement Framework for Logical Structure Language Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-20T00:00:00Z
语言模型的革命:LEP及其对自然语言处理适应性的影响

LEP(学习嵌入传播)是语言模型的重要进展,旨在提升自然语言处理(NLP)在数据稀缺语言中的适应性。通过利用英语的上下文知识,LEP改善了模型的语义对齐和知识转移,提升了性能。其高效的预训练管道和成本效益使其在多语言应用中具备潜力,但在实施中仍面临数据质量和文化差异的挑战。

语言模型的革命:LEP及其对自然语言处理适应性的影响

DEV Community
DEV Community · 2025-01-04T08:05:08Z

本研究提出Smooth-Foley模型,旨在解决视频到音频生成中的语义和时间对齐问题。该模型通过文本标签的语义指导,提升了生成音频的质量和与物理法则的一致性,表现优于现有模型。

Smooth Foley: Generating Continuous Audio for Video Under Semantic Guidance

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本研究提出了一种新框架,通过对ItemID进行语义对齐和引入监督学习任务,解决推荐系统中稀疏语义与大型语言模型之间的差异。实验结果表明,该模型显著提高了召回率,并增强了推荐系统的扩展性。

Semantic Convergence: Harmonizing Recommender Systems through Two-Stage Alignment and Behavioral Semantic Tokenization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出YingSound模型,解决产品视频生成音效时标记数据不足的问题。该模型通过条件流匹配变换器实现音频与视觉的语义对齐,并引入多模态思维链方法,实验结果表明其能有效生成高质量的同步音效。

YingSound: Video-Guided Sound Effect Generation Controlled by Multimodal Thinking Chains

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究提出了一种新的类不平衡跨域分布外检测方法(CCOD),通过不确定性感知自适应语义对齐网络(UASA)构建标签驱动的原型,显著提升了检测性能,实验结果表明其优于现有方法。

Your Data Is Not Perfect: Cross-Domain Out-of-Distribution Detection for Class-Imbalanced Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出了LayoutVLM框架,旨在解决大型语言模型在生成符合物理规律的3D场景及遵循输入指令方面的不足。实验结果表明,LayoutVLM显著提升了布局生成的语义对齐效果。

LayoutVLM:通过视觉-语言模型的可微优化实现3D布局

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z

本研究提出了一种新的全身MR到CT合成框架,通过结构引导合成、空间对齐和语义对齐模块,提升了合成CT图像的质量,并验证了其在PET衰减校正中的有效性。

Structure-Guided MR-to-CT Synthesis Method and Its Spatial and Semantic Alignment in Whole-Body PET/MR Imaging Attenuation Correction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

最近的文本到图像扩散模型在生成高质量图像方面取得了成功,但在语义遵循上存在挑战。为此,提出了一种无需训练的方法,通过监控概念的引导轨迹来调整模型的引导方向,从而改善语义对齐。

通过传输激活控制语言和扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

该流程使用大型预训练文本到图像模型生成高质量的定制矢量图形,保留SVG的属性和层次信息。通过语义路径对齐和损失优化,确保形状与定制图像一致。评估显示方法有效。

DeepIcon:一种分层网络用于逐层图标向量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z
扩散模型中的语义理解:文本到图像潜在反演

LEGO方法在扩散模型中学习可分解和可逆的文本到图像表示,不仅生成匹配文本的图像,还能反转文本提示为潜在表示。研究表明,LEGO在图像质量和语义对齐方面优于标准模型,尽管训练复杂性增加。它为多模态AI系统的发展奠定了基础,可能推动更复杂的文本引导图像操作和跨模态推理。

扩散模型中的语义理解:文本到图像潜在反演

DEV Community
DEV Community · 2024-10-03T09:16:39Z

本文介绍了Text-Conditioned Token Selection(TCTS)方案,通过文本信息选择最佳选项,提高图像生成质量和语义对齐度。结合Frequency Adaptive Sampling(FAS),进一步提升效果。实验显示,TCTS与FAS在图像-文本对齐和图像质量上优于基线,并将推理时间缩短50%以上。

无训练的投机雅可比解码加速自回归文本到图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

最新的文本到图像扩散模型在生成高质量图像方面有进展,但在准确理解提示上有困难。为此,提出了一种无需训练的方法,通过在推理时调整模型的引导方向来改善语义对齐。具体做法是将提示分解为概念集,监控并调整每个概念的引导方向。实验显示,该方法有效提升了语义对齐能力。

磁铁:了解视觉-语言模型的运作后,我们才能明白文本到图像扩散模型的工作机制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

最近的文本到图像生成模型在细节匹配上存在问题。SELMA通过自动生成数据集微调模型,提升了模型的忠实度。它利用上下文学习生成多技能文本提示,并通过专家融合构建多技能模型。实验显示,SELMA在多个基准数据集和人类评价中显著提升了语义对齐性和文本忠实度。SELMA自动收集的数据微调效果与真实数据相当,并能提升弱模型的生成质量。

开创文本到图像知识编辑的可靠评估:利用细粒度数据集和创新标准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

最近的文本到图像扩散模型在生成高质量图像方面有进展,但在准确理解提示语义上存在问题。为此,提出了一种无需训练的方法,通过在推理时调整模型的引导方向来改善语义对齐。具体做法是将提示语义分解为概念集,监控并调整每个概念的引导方向。实验显示,该方法有效提升了语义对齐能力。

DALDA:利用扩散模型和大语言模型进行自适应指导缩放的数据增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z
ConvoFusion: 用于语音手势合成的多模态对话扩散 | CVPR 2024

最近的研究提出了一种新的手势合成方法ConvoFusion,可以生成与语义对齐的手势。该方法通过关注特定词语来进行控制,并发布了DnD Group Gesture数据集来进一步推进多方互动手势的研究。实验结果表明,使用词级引导机制可以增强生成手势的语义一致性。

ConvoFusion: 用于语音手势合成的多模态对话扩散 | CVPR 2024

实时互动网
实时互动网 · 2024-08-05T07:11:46Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码