小红花·文摘

本文讨论了PPO中的clip和penalty机制，强调其在强化学习中的重要性。clip限制策略更新幅度，确保重要性采样有效，避免策略偏离；penalty通过引入KL惩罚，平衡奖励与维持现状的关系。两者共同提升了策略更新的稳定性和效率。

索尼 LinkBuds Clip 耳夹式开放真无线耳机体验 - TDS REVIEW

少数派 ·

DeepSeek发布了新OCR模型DeepSeek-OCR 2，采用轻量化Qwen2-0.5B模型，性能接近Gemini-3 Pro。该模型通过DeepEncoder V2实现视觉标记智能重排，提升PDF转Markdown的准确性，基于OmniDocBench v1.5测试显示性能提升3.73%。

DeepSeek开源全新OCR模型！弃用CLIP改用Qwen轻量小模型，性能媲美Gemini-3 Pro

量子位 ·

最近在搓一个 Lyricify Lite 类似物，原本使用渐变画刷实现歌词高亮，但是发现视觉效果与Apple Music相去甚远：单纯使用白色渐变画刷缺乏“高亮”的光照感觉，而Apple...

本文介绍流策略优化(FPO)算法，这是一种基于条件流匹配(CFM)的策略梯度方法。FPO通过将流匹配损失作为对数似然的替代项，避免了传统流模型复杂的似然计算，直接优化优势加权比值。相比将去噪过程重构为MDP的方法，FPO将采样视为黑盒，保持了标准扩散模型的结构。该算法兼容现有强化学习技术，能处理比高斯策略更复杂的动作分布。理论分析表明，FPO通过优化流匹配损失来提升证据下界(ELBO)，使策...

FPO——流匹配策略梯度：避开复杂的对数似然计算，通过「最大化基于CFM损失计算优势加权比率」做策略优化，兼容PPO-CLIP

结构之法算法之道 ·

本文探讨了大型行为模型（LBM）在波士顿动力人形Atlas中的应用，强调其在复杂任务中的表现。LBM通过多任务数据集训练，提升了机器人在动态环境中的自主互动能力。研究表明，LBM在微调新任务时仅需少量数据，并且在应对环境变化时表现更为稳健。尽管取得了一定进展，仍面临评估标准化和数据收集等挑战。

LBM——大型行为模型助力波士顿人形Atlas完成多任务灵巧操作：CLIP编码图像与语义，之后DiT去噪扩散生成动作

结构之法算法之道 ·

本文介绍了图像生成技术的发展，重点讨论了CLIP和BLIP及其变体的结构与训练方法。CLIP通过对比学习实现图像与文本的匹配，BLIP结合理解与生成能力，提升多模态任务表现。BLIP2引入Q-Former模块，优化视觉与语言对齐，InstructBLIP增强指令遵循能力，适应不同任务需求。

图文对比学习的发展史：从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP

结构之法算法之道 ·

OpenAI提出的CLIP，被Meta联合谢赛宁、刘壮，扩展到全球300+语言

机器之心 ·

四个月前，我们发布了Moonlight，在16B的MoE模型上验证了Muon优化器的有效性。在Moonlight中，我们确认了给Muon添加Weight Decay的必要性，同时提出了通过Upd...

QK-Clip：让Muon在Scaleup之路上更进一步

科学空间|Scientific Spaces ·

本文介绍了CSS中的clip-path函数，重点阐述了path()与shape()的区别。shape()函数支持百分比和CSS数学函数，解决了path()在尺寸适应上的局限，提供了更灵活的剪裁方式。作者还提供了在线转换工具，方便开发者使用。

CSS小图标剪裁终极解决方案clip-path shape()函数

张鑫旭 ·

CLIP-UP：一种简单高效的稀疏上循环Mixture-of-Experts CLIP训练方案

Apple Machine Learning Research ·

本研究提出了一种名为AdaptCLIP的方法，用于在开放场景中识别新颖视觉领域的异常。该方法通过交替学习视觉和文本表示，结合上下文和对齐残差特征的比较学习，克服了现有方法的灵活性不足，并在多个异常检测基准上表现优异。

AdaptCLIP: A Universal Visual Anomaly Detection Method Adapted from CLIP

BriefGPT - AI 论文速递 ·

本研究针对社交媒体平台上AI生成图像的真实性验证难题，探索了CLIP嵌入是否蕴含能指示AI生成的信息。通过提取可视嵌入并用于轻量级网络，本研究在CIFAKE基准上实现了95%的准确率，强调了在特定图像类型下的分类挑战，揭示了该领域值得深入探讨的新问题。

CLIP嵌入用于AI生成图像检测：轻量级分类器的少量学习研究

BriefGPT - AI 论文速递 ·

本研究提出了Endo-CLIP框架，旨在解决结肠镜图像分析中的背景干扰和医学术语模糊问题。实验结果表明，该框架在息肉检测与分类方面优于现有方法，准确性更高。

Endo-CLIP：在原始结肠镜记录上的逐步自监督预训练

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的视觉令牌化方法TokLIP，旨在解决多模态统一中的计算开销和理解性能问题。通过语义向量量化和CLIP语义融合，TokLIP提升了视觉令牌的语义理解与生成能力，适用于自回归Transformer任务。

TokLIP：将视觉令牌与CLIP结合实现多模态理解与生成

BriefGPT - AI 论文速递 ·

该研究提出了细粒度CLIP（FG-CLIP），通过生成16亿对长文本与图像，增强了模型对细微语义差异的识别能力。实验结果表明，FG-CLIP在多个任务中超越了原始CLIP及其他方法，有效提升了模型性能。

FG-CLIP：细粒度视觉与文本对齐

BriefGPT - AI 论文速递 ·

本研究解决了CLIP模型在多样化下游任务中容易受到对抗扰动攻击的安全隐患。我们提出了一种创新性的方法X-Transfer，通过生成一种通用对抗扰动(UAP)，实现了跨数据、跨领域、跨模型和跨任务的一次性攻击效果，即“超转移性”。实验结果显示，X-Transfer在对抗转移性方面显著超越了现有最先进的方法，树立了CLIP模型的对抗转移性新基准。