小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
《GPT 图解》笔记:Transformer

这篇文章介绍了Transformer模型的结构和关键概念。Transformer通过注意力机制替代RNN,解决了序列建模中的上下文依赖问题。引入位置编码使模型能够感知token的位置信息,注意力机制包括自注意力和交叉注意力。编码器和解码器结构相似,但解码器使用因果掩码以确保生成序列的自回归特性。整体上,Transformer实现了高效的并行计算和长距离依赖处理。

《GPT 图解》笔记:Transformer

Ying’s Blog
Ying’s Blog · 2026-06-07T07:18:45Z
Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频

Google DeepMind 发布了 Gemma 4 12B,这是一个无编码器的多模态模型,支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运行,性能接近 26B MoE 模型,但内存占用不到一半。它通过直接输入视觉和音频数据,简化了处理流程,提升了整体质量和指令遵循性。

Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频

实时互动网
实时互动网 · 2026-06-04T02:31:21Z
本地多模态拳王Gemma 4 12B评测 | 无编码器架构详解

谷歌最新的Gemma 4 12B是一款轻量级多模态AI模型,采用无编码器架构,能够直接处理图像和音频,提升了效率和理解能力。其120亿参数使其在普通电脑上运行成为可能,具备高效、快速的响应能力,并支持本地运行,确保隐私和安全。Gemma 4 12B适合个人用户和开发者,具有极高的可定制性。

本地多模态拳王Gemma 4 12B评测 | 无编码器架构详解

极道
极道 · 2026-06-03T23:29:00Z
相似不等于相关:两种编码器破解向量数据库的真正短板

向量搜索并不等于找到正确答案。现代搜索系统结合双编码器和交叉编码器,前者用于快速召回候选文档,后者用于精确排序。有效的搜索系统需兼顾速度与准确性,以提升搜索质量。

相似不等于相关:两种编码器破解向量数据库的真正短板

极道
极道 · 2026-05-25T02:14:00Z
《GPT 图解》笔记:Seq2Seq及点积注意力

本文介绍了Seq2Seq模型及其点积注意力机制。Seq2Seq用于机器翻译,通过编码器将输入序列转换为上下文表示,解码器生成输出序列。点积注意力计算输入矩阵的相似度,帮助解码器关注输入序列中的重要部分,从而提高上下文捕捉能力,增强翻译效果。

《GPT 图解》笔记:Seq2Seq及点积注意力

Ying’s Blog
Ying’s Blog · 2026-05-24T11:10:44Z
实用学习型图像压缩中的关键因素

本文探讨了一种学习型图像压缩编码器的设计,旨在优化人类视觉系统的感知质量与运行速度。研究表明,该编码器在压缩性能上显著优于传统编码器,提供2.3-3倍的比特率节省,且在iPhone 17 Pro Max上的编码速度为230毫秒,解码速度为150毫秒,超越大多数基于机器学习的编码器。

实用学习型图像压缩中的关键因素

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-07T00:00:00Z
HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

本文探讨了人形机器人在“行走-操作”任务中的挑战,提出了一种集成式全身操控系统,结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transformer(HTD),通过多模态学习提升机器人对接触状态的理解和反应能力,简化了学习过程,旨在提高人形机器人的操作能力和灵活性。

HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

结构之法 算法之道
结构之法 算法之道 · 2026-04-23T10:29:30Z
NAB 2026:AI-Media 推出 LEXI 文本编码器和 LEXI 语音编码器

AI-Media在2026年NAB展会上推出新的LEXI文本和语音编码器,这是公司十多年来首次发布新硬件。该编码器支持4K信号传输,兼容多种工作流程,并利用AI技术提升翻译和音频处理能力。此外,AI-Media还推出硬件即订阅模式,降低用户前期投资。

NAB 2026:AI-Media 推出 LEXI 文本编码器和 LEXI 语音编码器

实时互动网
实时互动网 · 2026-04-16T02:56:26Z

本文总结了Transformer架构的关键组成部分及其工作流程,重点讲解了编码器和解码器的层次结构、自注意力机制、残差连接和位置编码的重要性。探讨了训练与推理的不同方式,以及三种变体(Encoder-only、Decoder-only、Encoder-Decoder)的应用场景和优缺点。最终指出,Decoder-only模型因其灵活性和效率在现代大语言模型中占主导地位。

【Transformer 与注意力机制】20|Transformer 整体架构:一张图看懂

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
极海推出G32R430在轴多摩川协议磁电式编码器参考方案

极海推出基于G32R430编码器MCU的多种绝对值编码器方案,适用于工业自动化和人形机器人。该方案具有低延迟、高精度和多协议兼容性,提升设备续航和运动性能。

极海推出G32R430在轴多摩川协议磁电式编码器参考方案

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-23T02:41:56Z
HandBrake 1.11 新增了 ProRes、DNxHR 编码器和 MOV 输出格式

开源视频转码器HandBrake发布1.11.0版本,新增DNxHR和ProRes编码器,支持最高4K分辨率的MOV输出,增加AMD VCN AV1编码器,扩展FFV1保存预设,并改进Linux版本的文件处理和用户界面设置。

HandBrake 1.11 新增了 ProRes、DNxHR 编码器和 MOV 输出格式

实时互动网
实时互动网 · 2026-03-09T02:50:01Z
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

商汤科技与南洋理工大学推出NEO-unify,重构多模态模型,去除视觉编码器和变分自编码器,实现统一的端到端架构。该模型通过混合变换器架构,提升视觉与语言的理解与生成能力,标志着多模态AI向统一智能体的进化。

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

量子位
量子位 · 2026-03-07T04:39:02Z
Net Insight Nimbra Edge与Nimbra 400获得YouTube直播编码器认证

YouTube Live 将 Net Insight 的 Nimbra Edge 和 Nimbra 400 系列纳入认证编码器名单,确认其与 YouTube 的兼容性和性能。这增强了广播公司在实时分发中的信心,确保编码器经过严格测试,降低直播风险。

Net Insight Nimbra Edge与Nimbra 400获得YouTube直播编码器认证

实时互动网
实时互动网 · 2026-03-05T02:25:38Z
X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

结构之法 算法之道
结构之法 算法之道 · 2026-02-21T05:00:30Z
Haivision 成为美国职业棒球小联盟官方视频编码器

美国职业棒球小联盟(MiLB)选定Haivision的Makito X4视频编码器作为官方设备,支持120支球队的赛事直播,预计每赛季直播超过8000场赛事,提升低延迟信号传输和内容分发效率。Makito X4系统将于2026赛季逐步部署。

Haivision 成为美国职业棒球小联盟官方视频编码器

实时互动网
实时互动网 · 2026-02-12T03:43:49Z
GStreamer 1.28开源多媒体框架发布,新增支持Vulkan H.264编码器等多项功能

GStreamer 1.28 发布,新增 Vulkan H.264 编码器、AMD HIP 插件和 Wayland 支持。引入 Rust 编写的音频源分离、YOLOX 推理元素及 GIF 解码器,增强分析 API 和 MP4 解复用支持,同时改进日志管理和管道图支持。

GStreamer 1.28开源多媒体框架发布,新增支持Vulkan H.264编码器等多项功能

实时互动网
实时互动网 · 2026-01-28T02:41:56Z
RePro推出面向生产工作流程的软件桌面编码器

RePro Stream推出了桌面流媒体编码器Pulsar,支持实时传输最多四个信号,降低直播成本和设置时间。用户可通过互联网直接发送QTAKE输出,适合创意团队实时协作,支持超低延迟流媒体。Pulsar现提供测试版,兼容Mac和Windows,Linux版本即将推出。

RePro推出面向生产工作流程的软件桌面编码器

实时互动网
实时互动网 · 2026-01-13T02:14:26Z
基于信息驱动的成像系统设计

编码器将物体映射为无噪声图像,噪声影响测量值。我们的方法通过噪声模型直接评估成像系统的信息内容,优化设计。信息量统一了传统质量指标,更好地预测系统性能。IDEAL方法通过信息估计优化成像参数,简化了解码器设计,提高了系统设计的效率和准确性。

基于信息驱动的成像系统设计

The Berkeley Artificial Intelligence Research Blog
The Berkeley Artificial Intelligence Research Blog · 2026-01-10T09:00:00Z
Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

Meta推出了感知编码器视听模型(PE-AV),该模型通过对1亿个带字幕的音视频对进行训练,实现音频、视频和文本的对齐表示。PE-AV在多个基准测试中表现优异,支持跨模态检索和理解,并结合两阶段数据引擎生成合成字幕,提高了多模态监督的效率。

Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

实时互动网
实时互动网 · 2025-12-23T02:52:47Z
T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更多信息或更长的文本。

T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构

机器之心
机器之心 · 2025-12-19T03:59:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码