小红花·文摘

2026年的图标是什么？

Jim Nielsen’s Blog ·

Google AI 发布 Gemini 3.1 Flash TTS：表现力强、可控性高的 AI 语音技术新标杆

实时互动网 ·

Gemini 3.1 Flash TTS是最新的AI语音模型，支持70多种语言，用户可通过音频标签调整语音风格和节奏。所有生成的音频均带有SynthID水印，以防止误信息传播。开发者可在Google AI Studio中使用该模型，创造高保真语音体验。

Gemini 3.1 Flash TTS：下一代富有表现力的AI语音

Google DeepMind Blog ·

谷歌推出了Gemini 3.1 Flash TTS，这是最新的文本转语音模型，具备更好的可控性、表现力和音质，支持70多种语言，并提供音频标签以控制语音风格和节奏。所有生成的音频都带有不可见水印SynthID，以防止虚假信息传播。

Gemini 3.1 Flash TTS：下一代富有表现力的人工智能语音

The Keyword ·

ZEGO AI Agent 如何设置智能体语音情绪？让 AI 语音互动更具情感表现力

实时互动网 ·

文章讨论了Elan Ullendorff的观点，强调作品的“表现力”比创作工具更为重要。尽管AI是流行的创作工具，但“劣质内容”早在AI出现之前就已存在，主要源于缺乏思考和用心。

最初是粗糙之作

Jim Nielsen’s Blog ·

谷歌搜索推出Gemini音频模型，用户可通过语音与AI实时对话，获得更自然的回答。只需在谷歌应用中点击Live图标提问，便可享受更好的DIY帮助和学习体验。该功能将在未来一周内向美国用户推出。

现在，您在使用搜索时可以进行更流畅、更富表现力的对话。

The Keyword ·

$Exbody 2——富有表现力的人形全身控制：Teacher–Student两阶段训练方式，基于CVAE做连续运动合成$

Exbody 2——富有表现力的人形全身控制：Teacher–Student两阶段训练方式，基于CVAE做连续运动合成

结构之法算法之道 ·

IndexTTS2：用极致表现力颠覆听觉体验

实时互动网 ·

石影

子虚栈 ·

Boson AI 推出 Higgs 音频理解和 Higgs 音频生成：具有实时音频推理和富有表现力的语音合成功能

实时互动网 ·

本研究针对新手内容创作者在社交媒体视频中录制语音的困难，提出了一种新方法，通过用户提供的上下文简化文本到语音（TTS）生成，并利用SpeakEasy系统进行优化。研究结果表明，使用SpeakEasy的参与者能够更有效地生成符合个人标准的语音表现。

SpeakEasy：增强文本到语音交互以促进富有表现力的内容创作

BriefGPT - AI 论文速递 ·

本研究提出了DreamActor-M1框架，旨在提升人像动画技术的可控性和一致性。该框架结合扩散变换器和混合引导信号，实现了对面部表情和身体动作的有效控制，实验结果表明其在多种姿态和尺度下优于现有技术。

梦境演员-M1：融合引导的整体性、表现力和稳健的人物图像动画

BriefGPT - AI 论文速递 ·

新的数据集包含70万个丰富的风格提示，彻底改变了文本转语音的表现力

DEV Community ·

本研究提出了NotaGen模型，旨在生成高质量的古典乐谱。该模型在160万首音乐上预训练，并在9000首高品质作品上微调，采用CLaMP-DPO强化学习方法，显著提高了生成质量和可控性。实验结果表明，NotaGen在音乐美学方面超越了基线模型。

NotaGen：利用大型语言模型训练范式推进符号音乐生成的表现力

BriefGPT - AI 论文速递 ·

本研究解决了音乐数据集中无法区分富表现力和非富表现力MIDI音轨的问题，提出了一套创新的启发式方法，包括三种新的度量指标，以便于检测富表现力音乐演奏。研究结果表明，这些方法能有效区分不同类型音轨，并最终创建了一个包含1655649条富表现力音轨的大型GigaMIDI数据集，为音乐信息检索研究提供了重要数据支持。