小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
实用学习型图像压缩中的关键因素

本文探讨了一种学习型图像压缩编码器的设计,旨在优化人类视觉系统的感知质量与运行速度。研究表明,该编码器在压缩性能上显著优于传统编码器,提供2.3-3倍的比特率节省,且在iPhone 17 Pro Max上的编码速度为230毫秒,解码速度为150毫秒,超越大多数基于机器学习的编码器。

实用学习型图像压缩中的关键因素

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-07T00:00:00Z
HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

本文探讨了人形机器人在“行走-操作”任务中的挑战,提出了一种集成式全身操控系统,结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transformer(HTD),通过多模态学习提升机器人对接触状态的理解和反应能力,简化了学习过程,旨在提高人形机器人的操作能力和灵活性。

HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

结构之法 算法之道
结构之法 算法之道 · 2026-04-23T10:29:30Z
NAB 2026:AI-Media 推出 LEXI 文本编码器和 LEXI 语音编码器

AI-Media在2026年NAB展会上推出新的LEXI文本和语音编码器,这是公司十多年来首次发布新硬件。该编码器支持4K信号传输,兼容多种工作流程,并利用AI技术提升翻译和音频处理能力。此外,AI-Media还推出硬件即订阅模式,降低用户前期投资。

NAB 2026:AI-Media 推出 LEXI 文本编码器和 LEXI 语音编码器

实时互动网
实时互动网 · 2026-04-16T02:56:26Z

本文总结了Transformer架构的关键组成部分及其工作流程,重点讲解了编码器和解码器的层次结构、自注意力机制、残差连接和位置编码的重要性。探讨了训练与推理的不同方式,以及三种变体(Encoder-only、Decoder-only、Encoder-Decoder)的应用场景和优缺点。最终指出,Decoder-only模型因其灵活性和效率在现代大语言模型中占主导地位。

【Transformer 与注意力机制】20|Transformer 整体架构:一张图看懂

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
极海推出G32R430在轴多摩川协议磁电式编码器参考方案

极海推出基于G32R430编码器MCU的多种绝对值编码器方案,适用于工业自动化和人形机器人。该方案具有低延迟、高精度和多协议兼容性,提升设备续航和运动性能。

极海推出G32R430在轴多摩川协议磁电式编码器参考方案

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-23T02:41:56Z
HandBrake 1.11 新增了 ProRes、DNxHR 编码器和 MOV 输出格式

开源视频转码器HandBrake发布1.11.0版本,新增DNxHR和ProRes编码器,支持最高4K分辨率的MOV输出,增加AMD VCN AV1编码器,扩展FFV1保存预设,并改进Linux版本的文件处理和用户界面设置。

HandBrake 1.11 新增了 ProRes、DNxHR 编码器和 MOV 输出格式

实时互动网
实时互动网 · 2026-03-09T02:50:01Z
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

商汤科技与南洋理工大学推出NEO-unify,重构多模态模型,去除视觉编码器和变分自编码器,实现统一的端到端架构。该模型通过混合变换器架构,提升视觉与语言的理解与生成能力,标志着多模态AI向统一智能体的进化。

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

量子位
量子位 · 2026-03-07T04:39:02Z
Net Insight Nimbra Edge与Nimbra 400获得YouTube直播编码器认证

YouTube Live 将 Net Insight 的 Nimbra Edge 和 Nimbra 400 系列纳入认证编码器名单,确认其与 YouTube 的兼容性和性能。这增强了广播公司在实时分发中的信心,确保编码器经过严格测试,降低直播风险。

Net Insight Nimbra Edge与Nimbra 400获得YouTube直播编码器认证

实时互动网
实时互动网 · 2026-03-05T02:25:38Z
X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

结构之法 算法之道
结构之法 算法之道 · 2026-02-21T05:00:30Z
Haivision 成为美国职业棒球小联盟官方视频编码器

美国职业棒球小联盟(MiLB)选定Haivision的Makito X4视频编码器作为官方设备,支持120支球队的赛事直播,预计每赛季直播超过8000场赛事,提升低延迟信号传输和内容分发效率。Makito X4系统将于2026赛季逐步部署。

Haivision 成为美国职业棒球小联盟官方视频编码器

实时互动网
实时互动网 · 2026-02-12T03:43:49Z
GStreamer 1.28开源多媒体框架发布,新增支持Vulkan H.264编码器等多项功能

GStreamer 1.28 发布,新增 Vulkan H.264 编码器、AMD HIP 插件和 Wayland 支持。引入 Rust 编写的音频源分离、YOLOX 推理元素及 GIF 解码器,增强分析 API 和 MP4 解复用支持,同时改进日志管理和管道图支持。

GStreamer 1.28开源多媒体框架发布,新增支持Vulkan H.264编码器等多项功能

实时互动网
实时互动网 · 2026-01-28T02:41:56Z
RePro推出面向生产工作流程的软件桌面编码器

RePro Stream推出了桌面流媒体编码器Pulsar,支持实时传输最多四个信号,降低直播成本和设置时间。用户可通过互联网直接发送QTAKE输出,适合创意团队实时协作,支持超低延迟流媒体。Pulsar现提供测试版,兼容Mac和Windows,Linux版本即将推出。

RePro推出面向生产工作流程的软件桌面编码器

实时互动网
实时互动网 · 2026-01-13T02:14:26Z
基于信息驱动的成像系统设计

编码器将物体映射为无噪声图像,噪声影响测量值。我们的方法通过噪声模型直接评估成像系统的信息内容,优化设计。信息量统一了传统质量指标,更好地预测系统性能。IDEAL方法通过信息估计优化成像参数,简化了解码器设计,提高了系统设计的效率和准确性。

基于信息驱动的成像系统设计

The Berkeley Artificial Intelligence Research Blog
The Berkeley Artificial Intelligence Research Blog · 2026-01-10T09:00:00Z
Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

Meta推出了感知编码器视听模型(PE-AV),该模型通过对1亿个带字幕的音视频对进行训练,实现音频、视频和文本的对齐表示。PE-AV在多个基准测试中表现优异,支持跨模态检索和理解,并结合两阶段数据引擎生成合成字幕,提高了多模态监督的效率。

Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

实时互动网
实时互动网 · 2025-12-23T02:52:47Z
T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更多信息或更长的文本。

T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构

机器之心
机器之心 · 2025-12-19T03:59:00Z

T5Gemma 2是基于Gemma 3的多模态长上下文编码器-解码器模型,采用绑定词嵌入和合并注意力机制,显著减少参数数量。它支持图像和文本处理,具备更长的上下文窗口和多语言能力,适合快速实验和应用部署。

T5Gemma 2:下一代编码器-解码器模型

The Keyword
The Keyword · 2025-12-18T18:30:00Z

T5Gemma 2是基于Gemma 3的多模态长上下文编码器-解码器模型,采用绑定词嵌入和合并注意力机制,显著减少参数量。它支持图像与文本处理,具备更大的上下文窗口和多语言能力,适合快速实验和应用。

T5Gemma 2:下一代编码器-解码器模型

The Keyword
The Keyword · 2025-12-18T18:30:00Z

Transformer 是一种处理序列的模型,通过向量化表示基本单元(token)并利用自注意力机制捕捉元素间关系。其核心在于上下文建模,以生成更丰富的表示,适用于语言和时序数据。Transformer 架构包括编码器、解码器和编码器-解码器,分别用于理解、生成和翻译任务。

Transformer 个人入门

xxxx的个人博客
xxxx的个人博客 · 2025-12-18T14:35:32Z
英特尔视频处理库新增 AI 辅助视频编码器功能

英特尔发布了libvpl 2.16版本,新增AI辅助视频编码的实验性API,支持显著性编码和自适应目标使用方案。具体实现细节尚未公布,用户可在GitHub上获取该版本。

英特尔视频处理库新增 AI 辅助视频编码器功能

实时互动网
实时互动网 · 2025-12-18T01:55:31Z
Interspeech 2026 第二届音频编码器能力挑战赛正式启动

国际语音会议Interspeech 2026将于2026年9月在悉尼举行,期间将举办音频编码器能力挑战赛(AECC)。比赛聚焦音频编码器在复杂场景下的表现,参赛者需提交预训练模型,主办方提供评估系统。参赛者可使用公开数据集,报名截止日期为2026年1月25日。

Interspeech 2026 第二届音频编码器能力挑战赛正式启动

实时互动网
实时互动网 · 2025-12-16T01:55:24Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码