小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI

最近在搓一个 Lyricify Lite 类似物,原本使用渐变画刷实现歌词高亮,但是发现视觉效果与Apple Music相去甚远:单纯使用白色渐变画刷缺乏“高亮”的光照感觉,而Apple...

WPF 使用 HLSL + Clip 实现高亮歌词光照效果

dotNET跨平台
dotNET跨平台 · 2026-01-19T00:02:46Z
OpenAI CLIP:通过文本学习零样本图像识别的模型

CLIP是OpenAI开发的神经网络,通过学习4亿对图像和文本,实现无标注数据的图像分类。它通过匹配图像与文本描述,克服了传统计算机视觉的局限性,具有灵活性和高效性,广泛应用于AI领域。

OpenAI CLIP:通过文本学习零样本图像识别的模型

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-12-29T16:30:45Z

本文介绍流策略优化(FPO)算法,这是一种基于条件流匹配(CFM)的策略梯度方法。FPO通过将流匹配损失作为对数似然的替代项,避免了传统流模型复杂的似然计算,直接优化优势加权比值。相比将去噪过程重构为MDP的方法,FPO将采样视为黑盒,保持了标准扩散模型的结构。该算法兼容现有强化学习技术,能处理比高斯策略更复杂的动作分布。理论分析表明,FPO通过优化流匹配损失来提升证据下界(ELBO),使策...

FPO——流匹配策略梯度:避开复杂的对数似然计算,通过「最大化基于CFM损失计算优势加权比率」做策略优化,兼容PPO-CLIP

结构之法 算法之道
结构之法 算法之道 · 2025-11-25T09:59:55Z

本文探讨了大型行为模型(LBM)在波士顿动力人形Atlas中的应用,强调其在复杂任务中的表现。LBM通过多任务数据集训练,提升了机器人在动态环境中的自主互动能力。研究表明,LBM在微调新任务时仅需少量数据,并且在应对环境变化时表现更为稳健。尽管取得了一定进展,仍面临评估标准化和数据收集等挑战。

LBM——大型行为模型助力波士顿人形Atlas完成多任务灵巧操作:CLIP编码图像与语义,之后DiT去噪扩散生成动作

结构之法 算法之道
结构之法 算法之道 · 2025-08-29T13:36:25Z

本文介绍了图像生成技术的发展,重点讨论了CLIP和BLIP及其变体的结构与训练方法。CLIP通过对比学习实现图像与文本的匹配,BLIP结合理解与生成能力,提升多模态任务表现。BLIP2引入Q-Former模块,优化视觉与语言对齐,InstructBLIP增强指令遵循能力,适应不同任务需求。

图文对比学习的发展史:从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP

结构之法 算法之道
结构之法 算法之道 · 2025-08-22T15:13:18Z

OpenAI提出的CLIP,被Meta联合谢赛宁、刘壮,扩展到全球300+语言

机器之心
机器之心 · 2025-07-31T06:23:31Z

四个月前,我们发布了Moonlight,在16B的MoE模型上验证了Muon优化器的有效性。在Moonlight中,我们确认了给Muon添加Weight Decay的必要性,同时提出了通过Upd...

QK-Clip:让Muon在Scaleup之路上更进一步

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-07-12T06:07:00Z

本文介绍了CSS中的clip-path函数,重点阐述了path()与shape()的区别。shape()函数支持百分比和CSS数学函数,解决了path()在尺寸适应上的局限,提供了更灵活的剪裁方式。作者还提供了在线转换工具,方便开发者使用。

CSS小图标剪裁终极解决方案clip-path shape()函数

张鑫旭
张鑫旭 · 2025-06-30T08:35:52Z
CLIP-UP:一种简单高效的稀疏上循环Mixture-of-Experts CLIP训练方案

Mixture-of-Experts (MoE)模型在提升模型能力和控制推理成本方面至关重要。我们提出了一种高效的训练策略CLIP-Upcycling(CLIP-UP),将预训练的密集CLIP模型转化为稀疏MoE架构。实验结果表明,CLIP-UP显著降低了训练复杂性和成本,稀疏CLIP B/16模型在COCO和Flickr30k基准测试中分别超越密集模型7.2%和6.6%。该方法在不同规模上表现良好,为构建高效CLIP模型提供了可行方案。

CLIP-UP:一种简单高效的稀疏上循环Mixture-of-Experts CLIP训练方案

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-27T00:00:00Z

本研究提出了一种名为AdaptCLIP的方法,用于在开放场景中识别新颖视觉领域的异常。该方法通过交替学习视觉和文本表示,结合上下文和对齐残差特征的比较学习,克服了现有方法的灵活性不足,并在多个异常检测基准上表现优异。

AdaptCLIP: A Universal Visual Anomaly Detection Method Adapted from CLIP

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究针对社交媒体平台上AI生成图像的真实性验证难题,探索了CLIP嵌入是否蕴含能指示AI生成的信息。通过提取可视嵌入并用于轻量级网络,本研究在CIFAKE基准上实现了95%的准确率,强调了在特定图像类型下的分类挑战,揭示了该领域值得深入探讨的新问题。

CLIP嵌入用于AI生成图像检测:轻量级分类器的少量学习研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出了Endo-CLIP框架,旨在解决结肠镜图像分析中的背景干扰和医学术语模糊问题。实验结果表明,该框架在息肉检测与分类方面优于现有方法,准确性更高。

Endo-CLIP:在原始结肠镜记录上的逐步自监督预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本研究提出了一种新颖的视觉令牌化方法TokLIP,旨在解决多模态统一中的计算开销和理解性能问题。通过语义向量量化和CLIP语义融合,TokLIP提升了视觉令牌的语义理解与生成能力,适用于自回归Transformer任务。

TokLIP:将视觉令牌与CLIP结合实现多模态理解与生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

该研究提出了细粒度CLIP(FG-CLIP),通过生成16亿对长文本与图像,增强了模型对细微语义差异的识别能力。实验结果表明,FG-CLIP在多个任务中超越了原始CLIP及其他方法,有效提升了模型性能。

FG-CLIP:细粒度视觉与文本对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究解决了CLIP模型在多样化下游任务中容易受到对抗扰动攻击的安全隐患。我们提出了一种创新性的方法X-Transfer,通过生成一种通用对抗扰动(UAP),实现了跨数据、跨领域、跨模型和跨任务的一次性攻击效果,即“超转移性”。实验结果显示,X-Transfer在对抗转移性方面显著超越了现有最先进的方法,树立了CLIP模型的对抗转移性新基准。

X-Transfer攻击:迈向可超转移的CLIP对抗攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

CLIP全面赋能领域泛化与适应 | 最新综述:方法、挑战与未来方向

机器之心
机器之心 · 2025-05-06T03:16:00Z

本文探讨了英伟达的视觉语言模型Eagle 2,强调数据策略在模型开发中的关键作用。作者详细介绍了数据收集、过滤和选择的方法,提出多样化数据可提升模型性能。Eagle 2在多模态基准测试中表现出色,展示了开源视觉语言模型的潜力与发展方向。

多模态LLaVA系列与Eagle 2——从组合CLIP ViT和Vicuna的LLaVA,到英伟达开源的VLM Eagle 2(用于人形VLA GR00T N1中)

结构之法 算法之道
结构之法 算法之道 · 2025-05-05T05:02:24Z
UniME:多语言大模型在通用多模态嵌入中超越CLIP

UniME框架通过文本知识蒸馏和困难负样本增强,克服了CLIP在多模态嵌入中的局限性,提升了图文检索和视觉问答的性能,在多个基准测试中表现优异,证明了其在复杂应用中的有效性。

UniME:多语言大模型在通用多模态嵌入中超越CLIP

DEV Community
DEV Community · 2025-04-30T09:17:49Z

FG-CLIP模型通过长文本理解和细粒度视觉比对,解决了传统CLIP的“视觉近视”问题,能够精准识别局部细节。实验结果表明,其在多个任务上优于现有模型。360人工智能研究院将开源相关数据和代码,推动细粒度视觉理解的发展。

告别“图文不符”!FG-CLIP实现细粒度跨模态对齐,360开源模型重塑AI视觉理解

量子位
量子位 · 2025-04-28T08:13:33Z

本研究提出了CLIP-KOA框架,结合图像与文本信息,解决膝关节骨关节炎(KOA)诊断的主观性问题。该框架在KOA严重度预测中实现了71.86%的最佳准确率,提升了医疗预测的可靠性。

CLIP-KOA:通过多模态学习和对称感知损失函数增强膝关节骨关节炎诊断

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码