小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

GStreamer 1.28.1于2026年2月26日发布,新增语音转文本功能、调试插件和AV1解码器支持,修复多个组件问题,增强音频事件配置及WebRTC流功能,提升安全性和播放性能。

GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

实时互动网
实时互动网 · 2026-02-27T02:11:14Z
在线教程丨GLM-Image基于自回归+扩散解码器混合架构,精准理解指令写对文字

智谱与华为联合开源了新一代图像生成模型GLM-Image,该模型采用自回归与扩散解码器混合架构,提升了文字生成的准确性,支持多种比例的图像生成,成本低至0.1元,适合商业应用。用户可在HyperAI官网体验该模型。

在线教程丨GLM-Image基于自回归+扩散解码器混合架构,精准理解指令写对文字

HyperAI超神经
HyperAI超神经 · 2026-01-20T05:35:43Z
Shotcut 26.1 Beta 视频编辑器新增硬件解码器选项

Shotcut 26.1 beta版于2026年1月16日发布,新增GPU加速硬件解码选项,提升视频编辑速度。Linux、Windows和macOS版使用不同解码API,硬件解码可降低CPU使用率,但对高分辨率视频性能影响较大,导出时默认禁用。

Shotcut 26.1 Beta 视频编辑器新增硬件解码器选项

实时互动网
实时互动网 · 2026-01-19T02:30:59Z
T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更多信息或更长的文本。

T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构

机器之心
机器之心 · 2025-12-19T03:59:00Z

T5Gemma 2是基于Gemma 3的多模态长上下文编码器-解码器模型,采用绑定词嵌入和合并注意力机制,显著减少参数量。它支持图像与文本处理,具备更大的上下文窗口和多语言能力,适合快速实验和应用。

T5Gemma 2:下一代编码器-解码器模型

The Keyword
The Keyword · 2025-12-18T18:30:00Z

T5Gemma 2是基于Gemma 3的多模态长上下文编码器-解码器模型,采用绑定词嵌入和合并注意力机制,显著减少参数数量。它支持图像和文本处理,具备更长的上下文窗口和多语言能力,适合快速实验和应用部署。

T5Gemma 2:下一代编码器-解码器模型

The Keyword
The Keyword · 2025-12-18T18:30:00Z

Transformer 是一种处理序列的模型,通过向量化表示基本单元(token)并利用自注意力机制捕捉元素间关系。其核心在于上下文建模,以生成更丰富的表示,适用于语言和时序数据。Transformer 架构包括编码器、解码器和编码器-解码器,分别用于理解、生成和翻译任务。

Transformer 个人入门

xxxx的个人博客
xxxx的个人博客 · 2025-12-18T14:35:32Z
Qt 多媒体播放器深度解析:从 QMediaPlayer 到 FFmpeg 自定义播放架构

在Qt开发多媒体应用时,QMediaPlayer可能因依赖系统解码器而无法播放标准MP4视频。解决方案包括安装解码器、使用libVLC或mpv作为后端,或使用FFmpeg构建自定义播放器。

Qt 多媒体播放器深度解析:从 QMediaPlayer 到 FFmpeg 自定义播放架构

实时互动网
实时互动网 · 2025-11-19T02:59:01Z
HBS 选择 BBright 编解码器,通过 SRT 将 ST 2110 直播制作工作流程连接到云端

Host Broadcast Services (HBS) 部署了 BBright 编码器和解码器,通过 SRT 连接云端,实现高质量体育赛事直播。该技术支持双向通信,增强了远程制作和实时传输的灵活性与可靠性,确保本地与云端的互操作性,促进项目成功。

HBS 选择 BBright 编解码器,通过 SRT 将 ST 2110 直播制作工作流程连接到云端

实时互动网
实时互动网 · 2025-11-19T02:16:20Z
AV1解码生态全景图

自2018年发布以来,AV1编码标准因其高效、免费和开放的特性,迅速成为北美流媒体市场的主流选择。YouTube、Netflix和Meta等主要平台已广泛采用AV1,支持设备包括手机、电视和笔记本。开源解码器dav1d在硬解普及前推动了AV1的市场渗透。随着5G和8K技术的发展,AV1的应用场景将进一步扩展。

AV1解码生态全景图

实时互动网
实时互动网 · 2025-11-11T10:21:46Z

近期全球网络安全事件包括AWS服务中断、杜比解码器漏洞、TP-Link网关高危漏洞、Xubuntu官网被黑、Windows SMB漏洞及WatchGuard设备风险。专家建议及时更新防护措施,增强安全意识。

FreeBuf早报 | AWS服务大规模中断影响全球企业;杜比解码器零点击漏洞威胁安卓用户

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-10-21T09:47:24Z

杜比DDPlus解码器存在关键零点击漏洞,攻击者可通过恶意音频消息远程执行代码。该漏洞源于整数溢出,影响Android设备,用户无需交互即可触发。研究人员已提供样本比特流,建议用户及时更新设备,漏洞也可能影响macOS及其他集成杜比技术的系统。

杜比解码器零点击漏洞曝光,安卓用户可能遭RCE

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-10-20T05:48:40Z
AI 论文周报丨递归推理方法/轻量级解码器架构/深度卷积神经网络架构……多领域前沿动态一览

语言智能体旨在通过自身经验学习超越人类,但目前依赖专家数据微调,导致扩展性和泛化能力不足。Meta提出“早期经验”范式,通过智能体自身行为生成交互数据,作为监督信号,促进强化学习与模仿学习的结合。

AI 论文周报丨递归推理方法/轻量级解码器架构/深度卷积神经网络架构……多领域前沿动态一览

HyperAI超神经
HyperAI超神经 · 2025-10-17T08:28:04Z
Ateme 推出 DR5000e Kyrion 解码器

Ateme推出的DR5000e解码器专为高质量直播设计,具备超低延迟和高可靠性,支持双通道UHD解码,兼容多种工作流程,并集成BISS-CA保护功能,确保安全贡献。该设备预计于2025年第四季度上市。

Ateme 推出 DR5000e Kyrion 解码器

实时互动网
实时互动网 · 2025-10-16T02:11:56Z
FFmpeg 获得对 AHX、ADPCM Silicon Graphics N64 解码器的支持

FFmpeg 项目通过手写汇编语言提升性能,并新增对90年代末 AHX 音频文件的支持,同时为 Nintendo 64 添加了 ADPCM 解码器,支持多种其他格式。

FFmpeg 获得对 AHX、ADPCM Silicon Graphics N64 解码器的支持

实时互动网
实时互动网 · 2025-09-24T02:00:54Z

华人团队提出的“Memory Decoder”是一种新型预训练记忆模块,能有效提升Qwen和Llama模型在医学、法律和金融等领域的表现。与传统的DAPT和RAG方法相比,Memory Decoder成本低、效率高,避免了重新训练和实时检索的延迟。实验结果显示,使用该模块的模型困惑度平均降低6.17分,验证了其有效性。

超越RAG和DAPT!华人团队:一个小解码器让所有模型当上领域专家

量子位
量子位 · 2025-08-19T06:44:06Z
为仅解码器嵌入模型优化GGUF

两周前,我们发布了jina-embeddings-v4的GGUF格式,以提高推理速度。现代嵌入模型与LLM几乎相同,主要区别在于输出类型。文章讨论了将现代嵌入模型适配GGUF格式的经验,包括去除视觉变换器和多向量投影器,最终得到三个任务特定的GGUF模型。

为仅解码器嵌入模型优化GGUF

Jina AI
Jina AI · 2025-08-13T00:15:18Z
构建类似于Llama-2和Llama-3的仅解码器变换器模型

本文介绍了如何构建一个仅解码器的变换器模型,类似于Meta的Llama-2和Llama-3。该模型专注于文本生成,通过自监督学习进行训练,使用古腾堡项目的小说作为数据集,最终能够根据输入提示生成连贯的文本。

构建类似于Llama-2和Llama-3的仅解码器变换器模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-08-04T16:02:37Z
一种新的图像编辑或生成方法

MIT研究小组提出了一种新方法,通过一维标记器和解码器生成图像,无需传统生成器,预计到本世纪末AI图像生成将成为十亿美元产业。这种方法显著降低了计算成本,适用于图像编辑等多个领域,具有广泛的应用潜力。

一种新的图像编辑或生成方法

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-07-21T19:00:00Z
Visatronic:一种用于语音合成的多模态解码器模型

本文提出了一项新任务——从视频和转录文本生成语音(VTTS),旨在推动多模态语音生成技术的发展。我们介绍了Visatronic解码器模型,该模型将视觉、文本和语音嵌入统一的变换器中,通过自回归损失进行学习,简化了传统方法的复杂性,并在多模态语音生成中表现优越。相关代码和数据集将发布以促进进一步研究。

Visatronic:一种用于语音合成的多模态解码器模型

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码