量子位 ·

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

商汤科技与南洋理工大学推出NEO-unify，重构多模态模型，去除视觉编码器和变分自编码器，实现统一的端到端架构。该模型通过混合变换器架构，提升视觉与语言的理解与生成能力，标志着多模态AI向统一智能体的进化。

🎯

关键要点

商汤科技与南洋理工大学推出NEO-unify，重构多模态模型。
NEO-unify实现了无编码器的端到端架构，去除了视觉编码器和变分自编码器。
该模型通过混合变换器架构提升视觉与语言的理解与生成能力。
NEO-unify标志着多模态AI向统一智能体的进化。
当前多模态智能架构普遍依赖视觉编码器和变分自编码器，存在结构性设计权衡。
NEO-unify能够直接处理原生输入，摆脱预训练先验与规模定律瓶颈。
NEO-unify采用近似无损的视觉接口和原生混合Transformer架构。
模型在图像重建和编辑任务中表现出色，展现出高质量的语义理解与细节保真。
NEO-unify的无编码器架构与MoT主干协同，降低了内在冲突，提高了数据训练效率。
NEO-unify预示着多模态智能从组件堆叠向本质统一的演进，构建高度集成的统一智能体。

🏷️

继续阅读

我们开发了一个 resend 的替代品
Sendflare是一个由3人团队开发的邮件服务，旨在替代resend，提供更合理的定价，支持营销和交易邮件。免费用户可添加2个域名，每月发送3000封邮件。
OpenAI也向开源项目开发者/维护者推出福利计划免费领取半年ChatGPT Pro订阅
OpenAI 向开源项目开发者提供 6 个月的 ChatGPT Pro 订阅，无需硬性要求，只要项目具有广泛使用或重要性即可申请，包含 Codex 安全功...
OpenClaw创始人建议用户不要使用小模型跑高风险任务因为提示词注入防护非常弱
OpenClaw创始人建议用户避免在高风险任务中使用小模型或旧模型，因为这些模型的提示词注入防护较弱，存在安全隐患。用户应选择最新、指令对齐更强的模型，并...
年度征文｜在新加坡，住最昂贵的房子，过最憋屈的日子
作者分享了在新加坡租房的经历，分析了公寓和组屋的优缺点，包括高租金、设计缺陷和虫害问题。尽管居住环境现代化，但噪音和卫生问题仍然存在，反映了租房生活的挑战。
当地媒体称伊朗使用无人机袭击AWS数据中心是故意为之因为AWS为美国提供情报支持
伊朗无人机袭击亚马逊AWS数据中心，称其为美国及盟友提供军事支持，导致中东多国企业服务中断。亚马逊建议客户备份和迁移数据，官方未承认责任，可能影响未来投资。
择善而用
我学会了接受不完美，遇到不喜欢的事物时不再生气，而是寻找其积极面。例如，我使用一个有缺陷的倒数日app，但仍然继续使用。包容是为了自己的利益最大化。

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器

内容提要

关键要点

标签

继续阅读