小红花·文摘 - 小红花技术领袖俱乐部

Arxiv | MagiCodec：高斯噪声注入与多阶段训练实现高保真可建模音频编码

Arxiv | MagiCodec：高斯噪声注入与多阶段训练实现高保真可建模音频编码

实时互动网 ·

NTS Radio播放器将互联网广播的最佳体验带入您的高保真音响

NTS Radio播放器将互联网广播的最佳体验带入您的高保真音响

The Verge ·

Cursor 对接 Fish 语音 MCP

Cursor 对接 Fish 语音 MCP

静觅 ·

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

美团技术团队 ·

国产免费2B开源语音模型征服《莽撞人》！复刻郭德纲最难贯口

量子位 ·

谷歌推出Lyria 3音乐生成模型，支持高保真音乐创作，包括完整歌曲和30秒片段。开发者可通过自然语言精确控制音乐节奏和歌词时间，并可通过图像输入影响音频风格。Lyria 3旨在增强人类创意，所有生成音轨均带有数字水印以确保透明度。

使用Lyria 3构建，我们最新的音乐生成模型

The Keyword ·

MOSS-TTS：基于 CAT 架构的解耦式生产级语音生成模型；打破单细胞分析壁垒：Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS：基于 CAT 架构的解耦式生产级语音生成模型；打破单细胞分析壁垒：Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经 ·

Mon3tr: 基于单目相机的3D远程全息通信系统

Mon3tr: 基于单目相机的3D远程全息通信系统

实时互动网 ·

在线教程｜精准图像分层，Qwen-Image-Layered突破目标图层编辑痛点，兼顾高保真与一致性

在线教程｜精准图像分层，Qwen-Image-Layered突破目标图层编辑痛点，兼顾高保真与一致性

HyperAI超神经 ·

在线教程｜精准图像分层，Qwen-Image-Layered突破目标图层编辑痛点，兼顾高保真与一致性

在线教程｜精准图像分层，Qwen-Image-Layered突破目标图层编辑痛点，兼顾高保真与一致性

HyperAI超神经 ·

PDF Craft – 基于 DeepSeek OCR，实现扫描版 PDF 的高保真电子书转换

PDF Craft – 基于 DeepSeek OCR，实现扫描版 PDF 的高保真电子书转换

小众软件 ·

在线教程丨微软开源VibeVoice，可实现90分钟4角色自然对话

在线教程丨微软开源VibeVoice，可实现90分钟4角色自然对话

HyperAI超神经 ·

微软在Windows 11中开发新技术解决蓝牙音频固有问题实现高保真音质和语音通话

微软在Windows 11中开发新技术解决蓝牙音频固有问题实现高保真音质和语音通话

蓝点网 ·

Unbabel 推出 TOWER+：多语言 LLM 高保真翻译与指令遵循的统一框架

Unbabel 推出 TOWER+：多语言 LLM 高保真翻译与指令遵循的统一框架

实时互动网 ·

清华与腾讯联合研发的Scene Splatter模型基于视频扩散技术，从单张图像生成高保真3D场景，解决了几何扭曲和一致性问题。该模型通过动量引导生成多视角视频，显著提升三维场景重建效果。

视频扩散模型新突破！清华腾讯联合实现高保真3D生成，告别多视图依赖

量子位 ·

DeepSeek V3能生成图像吗？

DeepSeek V3能生成图像吗？

DEV Community ·

本研究提出ClapFM-EVC框架，旨在解决高保真情感语音转换中的灵活性和可解释性问题。该框架通过自然语言提示或参考语音生成高质量的转换语音，并能够调节情感强度，研究结果验证了其有效性。

ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech

BriefGPT - AI 论文速递 ·

本研究利用卷积长短时记忆网络和自编码器，显著降低了金属材料晶粒生长模拟的计算成本，实现了比传统方法快89倍的预测效率，推动了材料科学的创新。

高保真晶粒生长建模：利用深度学习实现快速计算

BriefGPT - AI 论文速递 ·

InfiniteYou（InfU）是字节跳动推出的图像生成框架，基于Diffusion Transformers，能够保持人物身份一致性。它解决了身份相似度、图文对齐和生成质量等问题，采用InfuseNet提升身份保真度，并通过多阶段训练优化生成效果，表现超越现有方法。

在线教程丨字节开源 InfiniteYou 图像生成框架，实现高保真面部特征迁移

HyperAI超神经 ·

本研究提出了一种名为“场景溅射”的动量框架，旨在从单幅图像生成3D场景，解决了现有视频生成模型在新视角生成中的视频长度限制和场景不一致问题。实验结果表明，该方法在高保真和一致性场景生成方面表现优越。

Scene Splatter: Momentum-Based Video Diffusion Model for 3D Scene Generation from a Single Image

BriefGPT - AI 论文速递 ·