小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
HTD——基于触觉预测的多功能人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

本文探讨了人形机器人在“行走-操作”任务中的挑战,提出了一种集成式全身操控系统,结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transformer(HTD),通过多模态学习提升机器人对接触状态的理解和反应能力,简化了学习过程,旨在提高人形机器人的操作能力和灵活性。

HTD——基于触觉预测的多功能人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

结构之法 算法之道
结构之法 算法之道 · 2026-04-23T10:29:30Z
NAB 2026:AI-Media 推出 LEXI 文本编码器和 LEXI 语音编码器

AI-Media在2026年NAB展会上推出新的LEXI文本和语音编码器,这是公司十多年来首次发布新硬件。该编码器支持4K信号传输,兼容多种工作流程,并利用AI技术提升翻译和音频处理能力。此外,AI-Media还推出硬件即订阅模式,降低用户前期投资。

NAB 2026:AI-Media 推出 LEXI 文本编码器和 LEXI 语音编码器

实时互动网
实时互动网 · 2026-04-16T02:56:26Z
极海推出G32R430在轴多摩川协议磁电式编码器参考方案

极海推出基于G32R430编码器MCU的多种绝对值编码器方案,适用于工业自动化和人形机器人。该方案具有低延迟、高精度和多协议兼容性,提升设备续航和运动性能。

极海推出G32R430在轴多摩川协议磁电式编码器参考方案

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-23T02:41:56Z
HandBrake 1.11 新增了 ProRes、DNxHR 编码器和 MOV 输出格式

开源视频转码器HandBrake发布1.11.0版本,新增DNxHR和ProRes编码器,支持最高4K分辨率的MOV输出,增加AMD VCN AV1编码器,扩展FFV1保存预设,并改进Linux版本的文件处理和用户界面设置。

HandBrake 1.11 新增了 ProRes、DNxHR 编码器和 MOV 输出格式

实时互动网
实时互动网 · 2026-03-09T02:50:01Z
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

商汤科技与南洋理工大学推出NEO-unify,重构多模态模型,去除视觉编码器和变分自编码器,实现统一的端到端架构。该模型通过混合变换器架构,提升视觉与语言的理解与生成能力,标志着多模态AI向统一智能体的进化。

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

量子位
量子位 · 2026-03-07T04:39:02Z
Net Insight Nimbra Edge与Nimbra 400获得YouTube直播编码器认证

YouTube Live 将 Net Insight 的 Nimbra Edge 和 Nimbra 400 系列纳入认证编码器名单,确认其与 YouTube 的兼容性和性能。这增强了广播公司在实时分发中的信心,确保编码器经过严格测试,降低直播风险。

Net Insight Nimbra Edge与Nimbra 400获得YouTube直播编码器认证

实时互动网
实时互动网 · 2026-03-05T02:25:38Z
X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

结构之法 算法之道
结构之法 算法之道 · 2026-02-21T05:00:30Z
Haivision 成为美国职业棒球小联盟官方视频编码器

美国职业棒球小联盟(MiLB)选定Haivision的Makito X4视频编码器作为官方设备,支持120支球队的赛事直播,预计每赛季直播超过8000场赛事,提升低延迟信号传输和内容分发效率。Makito X4系统将于2026赛季逐步部署。

Haivision 成为美国职业棒球小联盟官方视频编码器

实时互动网
实时互动网 · 2026-02-12T03:43:49Z
GStreamer 1.28开源多媒体框架发布,新增支持Vulkan H.264编码器等多项功能

GStreamer 1.28 发布,新增 Vulkan H.264 编码器、AMD HIP 插件和 Wayland 支持。引入 Rust 编写的音频源分离、YOLOX 推理元素及 GIF 解码器,增强分析 API 和 MP4 解复用支持,同时改进日志管理和管道图支持。

GStreamer 1.28开源多媒体框架发布,新增支持Vulkan H.264编码器等多项功能

实时互动网
实时互动网 · 2026-01-28T02:41:56Z
RePro推出面向生产工作流程的软件桌面编码器

RePro Stream推出了桌面流媒体编码器Pulsar,支持实时传输最多四个信号,降低直播成本和设置时间。用户可通过互联网直接发送QTAKE输出,适合创意团队实时协作,支持超低延迟流媒体。Pulsar现提供测试版,兼容Mac和Windows,Linux版本即将推出。

RePro推出面向生产工作流程的软件桌面编码器

实时互动网
实时互动网 · 2026-01-13T02:14:26Z
基于信息驱动的成像系统设计

编码器将物体映射为无噪声图像,噪声影响测量值。我们的方法通过噪声模型直接评估成像系统的信息内容,优化设计。信息量统一了传统质量指标,更好地预测系统性能。IDEAL方法通过信息估计优化成像参数,简化了解码器设计,提高了系统设计的效率和准确性。

基于信息驱动的成像系统设计

The Berkeley Artificial Intelligence Research Blog
The Berkeley Artificial Intelligence Research Blog · 2026-01-10T09:00:00Z
Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

Meta推出了感知编码器视听模型(PE-AV),该模型通过对1亿个带字幕的音视频对进行训练,实现音频、视频和文本的对齐表示。PE-AV在多个基准测试中表现优异,支持跨模态检索和理解,并结合两阶段数据引擎生成合成字幕,提高了多模态监督的效率。

Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

实时互动网
实时互动网 · 2025-12-23T02:52:47Z
T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更多信息或更长的文本。

T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构

机器之心
机器之心 · 2025-12-19T03:59:00Z

T5Gemma 2是基于Gemma 3的多模态长上下文编码器-解码器模型,采用绑定词嵌入和合并注意力机制,显著减少参数量。它支持图像与文本处理,具备更大的上下文窗口和多语言能力,适合快速实验和应用。

T5Gemma 2:下一代编码器-解码器模型

The Keyword
The Keyword · 2025-12-18T18:30:00Z

T5Gemma 2是基于Gemma 3的多模态长上下文编码器-解码器模型,采用绑定词嵌入和合并注意力机制,显著减少参数数量。它支持图像和文本处理,具备更长的上下文窗口和多语言能力,适合快速实验和应用部署。

T5Gemma 2:下一代编码器-解码器模型

The Keyword
The Keyword · 2025-12-18T18:30:00Z

Transformer 是一种处理序列的模型,通过向量化表示基本单元(token)并利用自注意力机制捕捉元素间关系。其核心在于上下文建模,以生成更丰富的表示,适用于语言和时序数据。Transformer 架构包括编码器、解码器和编码器-解码器,分别用于理解、生成和翻译任务。

Transformer 个人入门

xxxx的个人博客
xxxx的个人博客 · 2025-12-18T14:35:32Z
英特尔视频处理库新增 AI 辅助视频编码器功能

英特尔发布了libvpl 2.16版本,新增AI辅助视频编码的实验性API,支持显著性编码和自适应目标使用方案。具体实现细节尚未公布,用户可在GitHub上获取该版本。

英特尔视频处理库新增 AI 辅助视频编码器功能

实时互动网
实时互动网 · 2025-12-18T01:55:31Z
Interspeech 2026 第二届音频编码器能力挑战赛正式启动

国际语音会议Interspeech 2026将于2026年9月在悉尼举行,期间将举办音频编码器能力挑战赛(AECC)。比赛聚焦音频编码器在复杂场景下的表现,参赛者需提交预训练模型,主办方提供评估系统。参赛者可使用公开数据集,报名截止日期为2026年1月25日。

Interspeech 2026 第二届音频编码器能力挑战赛正式启动

实时互动网
实时互动网 · 2025-12-16T01:55:24Z
可扩展多模态模型服务的编码器解耦

现代大型多模态模型(LMM)在服务时效率低下,因视觉编码器与文本生成阶段共享资源。通过将视觉编码器独立服务化,可以实现流水线执行,消除干扰,提高吞吐量并降低延迟,从而优化资源分配和提升多模态请求处理效率。

可扩展多模态模型服务的编码器解耦

vLLM Blog
vLLM Blog · 2025-12-15T00:00:00Z
超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025

文章讨论了人工智能在各领域的应用,强调其在提升效率和决策支持中的重要性,推动传统行业的创新与发展。

超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025

机器之心
机器之心 · 2025-11-21T04:37:51Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码