量子位 ·

语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

💡 原文中文，约3800字，阅读约需10分钟。

📝

内容提要

百度推出的端到端语音语言大模型，利用Cross-Attention技术将语音交互成本降低90%，提升响应速度和真实感。该模型结合语音识别与语言模型，解决了传统语音交互的痛点，推动了大模型在语音领域的应用。

🎯

❓

该模型采用了Cross-Attention技术，结合语音识别与语言模型，显著降低了语音交互成本，并提升了响应速度和真实感。

通过EALLQA技术和Encoder与语音识别系统的融合，百度的模型将语音交互成本降低了最高90%。

新模型提供了更低的语音合成延迟和更真实的对话体验，使得语音交互更具情感和自然度。

模型通过流式逐字合成技术，结合大语言模型的语义理解能力，能够更好地识别多音字和生成情感丰富的语音。

贾磊强调，极低成本是实现大规模工业化应用的关键，能够加速大模型在实际生活中的应用。

百度希望通过技术分享推动语音领域的创新与发展，促进大模型的广泛应用。

🏷️

国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
GitHub Copilot CLI 入门：交互模式与非交互模式
本文介绍了使用GitHub Copilot CLI创建的项目，包括表情符号列表生成器和个人组织指挥中心。此外，还提到了一款名为GitHub Secure ...
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
在Kubernetes中管理Valkey集群
Percona推出Valkey Operator，支持在Kubernetes中管理Valkey数据库。新功能包括配置参数、用户权限管理和TLS加密支持，用...
网友吐槽：OpenClaw又触发了Claude Code当场翻脸还扣钱！
Claude Code因关键词“openclaw”触发机制，导致用户请求被拒绝并扣费。开发者发现系统未能理解上下文，简单匹配关键词造成误伤，引发社区讨论。...
Christophe Pettus: On pgvectorscale, and Hybrid Search Without an Elasticsearch Sidecar
pgvector is excellent. It is also, at large scale, expensive — because the HN...