小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
《GPT 图解》笔记:Transformer

这篇文章介绍了Transformer模型的结构和关键概念。Transformer通过注意力机制替代RNN,解决了序列建模中的上下文依赖问题。引入位置编码使模型能够感知token的位置信息,注意力机制包括自注意力和交叉注意力。编码器和解码器结构相似,但解码器使用因果掩码以确保生成序列的自回归特性。整体上,Transformer实现了高效的并行计算和长距离依赖处理。

《GPT 图解》笔记:Transformer

Ying’s Blog
Ying’s Blog · 2026-06-07T07:18:45Z
Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频

Google DeepMind 发布了 Gemma 4 12B,这是一个无编码器的多模态模型,支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运行,性能接近 26B MoE 模型,但内存占用不到一半。它通过直接输入视觉和音频数据,简化了处理流程,提升了整体质量和指令遵循性。

Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频

实时互动网
实时互动网 · 2026-06-04T02:31:21Z
本地多模态拳王Gemma 4 12B评测 | 无编码器架构详解

谷歌最新的Gemma 4 12B是一款轻量级多模态AI模型,采用无编码器架构,能够直接处理图像和音频,提升了效率和理解能力。其120亿参数使其在普通电脑上运行成为可能,具备高效、快速的响应能力,并支持本地运行,确保隐私和安全。Gemma 4 12B适合个人用户和开发者,具有极高的可定制性。

本地多模态拳王Gemma 4 12B评测 | 无编码器架构详解

极道
极道 · 2026-06-03T23:29:00Z
相似不等于相关:两种编码器破解向量数据库的真正短板

向量搜索并不等于找到正确答案。现代搜索系统结合双编码器和交叉编码器,前者用于快速召回候选文档,后者用于精确排序。有效的搜索系统需兼顾速度与准确性,以提升搜索质量。

相似不等于相关:两种编码器破解向量数据库的真正短板

极道
极道 · 2026-05-25T02:14:00Z
《GPT 图解》笔记:Seq2Seq及点积注意力

本文介绍了Seq2Seq模型及其点积注意力机制。Seq2Seq用于机器翻译,通过编码器将输入序列转换为上下文表示,解码器生成输出序列。点积注意力计算输入矩阵的相似度,帮助解码器关注输入序列中的重要部分,从而提高上下文捕捉能力,增强翻译效果。

《GPT 图解》笔记:Seq2Seq及点积注意力

Ying’s Blog
Ying’s Blog · 2026-05-24T11:10:44Z
实用学习型图像压缩中的关键因素

本文探讨了一种学习型图像压缩编码器的设计,旨在优化人类视觉系统的感知质量与运行速度。研究表明,该编码器在压缩性能上显著优于传统编码器,提供2.3-3倍的比特率节省,且在iPhone 17 Pro Max上的编码速度为230毫秒,解码速度为150毫秒,超越大多数基于机器学习的编码器。

实用学习型图像压缩中的关键因素

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-07T00:00:00Z
HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

本文探讨了人形机器人在“行走-操作”任务中的挑战,提出了一种集成式全身操控系统,结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transformer(HTD),通过多模态学习提升机器人对接触状态的理解和反应能力,简化了学习过程,旨在提高人形机器人的操作能力和灵活性。

HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

结构之法 算法之道
结构之法 算法之道 · 2026-04-23T10:29:30Z
NAB 2026:AI-Media 推出 LEXI 文本编码器和 LEXI 语音编码器

AI-Media在2026年NAB展会上推出新的LEXI文本和语音编码器,这是公司十多年来首次发布新硬件。该编码器支持4K信号传输,兼容多种工作流程,并利用AI技术提升翻译和音频处理能力。此外,AI-Media还推出硬件即订阅模式,降低用户前期投资。

NAB 2026:AI-Media 推出 LEXI 文本编码器和 LEXI 语音编码器

实时互动网
实时互动网 · 2026-04-16T02:56:26Z

本文总结了Transformer架构的关键组成部分及其工作流程,重点讲解了编码器和解码器的层次结构、自注意力机制、残差连接和位置编码的重要性。探讨了训练与推理的不同方式,以及三种变体(Encoder-only、Decoder-only、Encoder-Decoder)的应用场景和优缺点。最终指出,Decoder-only模型因其灵活性和效率在现代大语言模型中占主导地位。

【Transformer 与注意力机制】20|Transformer 整体架构:一张图看懂

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
极海推出G32R430在轴多摩川协议磁电式编码器参考方案

极海推出基于G32R430编码器MCU的多种绝对值编码器方案,适用于工业自动化和人形机器人。该方案具有低延迟、高精度和多协议兼容性,提升设备续航和运动性能。

极海推出G32R430在轴多摩川协议磁电式编码器参考方案

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-23T02:41:56Z
HandBrake 1.11 新增了 ProRes、DNxHR 编码器和 MOV 输出格式

开源视频转码器HandBrake发布1.11.0版本,新增DNxHR和ProRes编码器,支持最高4K分辨率的MOV输出,增加AMD VCN AV1编码器,扩展FFV1保存预设,并改进Linux版本的文件处理和用户界面设置。

HandBrake 1.11 新增了 ProRes、DNxHR 编码器和 MOV 输出格式

实时互动网
实时互动网 · 2026-03-09T02:50:01Z
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

商汤科技与南洋理工大学推出NEO-unify,重构多模态模型,去除视觉编码器和变分自编码器,实现统一的端到端架构。该模型通过混合变换器架构,提升视觉与语言的理解与生成能力,标志着多模态AI向统一智能体的进化。

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

量子位
量子位 · 2026-03-07T04:39:02Z
Net Insight Nimbra Edge与Nimbra 400获得YouTube直播编码器认证

YouTube Live 将 Net Insight 的 Nimbra Edge 和 Nimbra 400 系列纳入认证编码器名单,确认其与 YouTube 的兼容性和性能。这增强了广播公司在实时分发中的信心,确保编码器经过严格测试,降低直播风险。

Net Insight Nimbra Edge与Nimbra 400获得YouTube直播编码器认证

实时互动网
实时互动网 · 2026-03-05T02:25:38Z
X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

结构之法 算法之道
结构之法 算法之道 · 2026-02-21T05:00:30Z
Haivision 成为美国职业棒球小联盟官方视频编码器

美国职业棒球小联盟(MiLB)选定Haivision的Makito X4视频编码器作为官方设备,支持120支球队的赛事直播,预计每赛季直播超过8000场赛事,提升低延迟信号传输和内容分发效率。Makito X4系统将于2026赛季逐步部署。

Haivision 成为美国职业棒球小联盟官方视频编码器

实时互动网
实时互动网 · 2026-02-12T03:43:49Z
GStreamer 1.28开源多媒体框架发布,新增支持Vulkan H.264编码器等多项功能

GStreamer 1.28 发布,新增 Vulkan H.264 编码器、AMD HIP 插件和 Wayland 支持。引入 Rust 编写的音频源分离、YOLOX 推理元素及 GIF 解码器,增强分析 API 和 MP4 解复用支持,同时改进日志管理和管道图支持。

GStreamer 1.28开源多媒体框架发布,新增支持Vulkan H.264编码器等多项功能

实时互动网
实时互动网 · 2026-01-28T02:41:56Z
RePro推出面向生产工作流程的软件桌面编码器

RePro Stream推出了桌面流媒体编码器Pulsar,支持实时传输最多四个信号,降低直播成本和设置时间。用户可通过互联网直接发送QTAKE输出,适合创意团队实时协作,支持超低延迟流媒体。Pulsar现提供测试版,兼容Mac和Windows,Linux版本即将推出。

RePro推出面向生产工作流程的软件桌面编码器

实时互动网
实时互动网 · 2026-01-13T02:14:26Z
基于信息驱动的成像系统设计

编码器将物体映射为无噪声图像,噪声影响测量值。我们的方法通过噪声模型直接评估成像系统的信息内容,优化设计。信息量统一了传统质量指标,更好地预测系统性能。IDEAL方法通过信息估计优化成像参数,简化了解码器设计,提高了系统设计的效率和准确性。

基于信息驱动的成像系统设计

The Berkeley Artificial Intelligence Research Blog
The Berkeley Artificial Intelligence Research Blog · 2026-01-10T09:00:00Z
Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

Meta推出了感知编码器视听模型(PE-AV),该模型通过对1亿个带字幕的音视频对进行训练,实现音频、视频和文本的对齐表示。PE-AV在多个基准测试中表现优异,支持跨模态检索和理解,并结合两阶段数据引擎生成合成字幕,提高了多模态监督的效率。

Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

实时互动网
实时互动网 · 2025-12-23T02:52:47Z
T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更多信息或更长的文本。

T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构

机器之心
机器之心 · 2025-12-19T03:59:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码