小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团LongCat团队发布了LongCat-AudioDiT模型,采用全新的端到端文本转语音技术,减少信息损失。该模型在Seed基准测试中表现优异,取得最佳的说话人相似度和可懂度,证明了在波形潜空间生成语音的有效性。LongCat-AudioDiT以简化架构和高保真合成为目标,已开源,期待推动语音生成技术的发展。

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团技术团队
美团技术团队 · 2026-04-20T00:00:00Z
国产免费2B开源语音模型征服《莽撞人》!复刻郭德纲最难贯口

国产开源语音模型VoxCPM 2成功复刻郭德纲的《莽撞人》,展现高保真、多方言和多语种能力,音质达到CD级别,适用于游戏和影视等领域,吸引了众多用户体验。

国产免费2B开源语音模型征服《莽撞人》!复刻郭德纲最难贯口

量子位
量子位 · 2026-04-08T06:10:06Z

谷歌推出Lyria 3音乐生成模型,支持高保真音乐创作,包括完整歌曲和30秒片段。开发者可通过自然语言精确控制音乐节奏和歌词时间,并可通过图像输入影响音频风格。Lyria 3旨在增强人类创意,所有生成音轨均带有数字水印以确保透明度。

使用Lyria 3构建,我们最新的音乐生成模型

The Keyword
The Keyword · 2026-03-25T16:00:00Z
MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具,克服了单一模型在复杂场景中的局限,支持高保真语音、对话和实时交互,适用于多种语言和风格切换。

MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经
HyperAI超神经 · 2026-03-06T06:01:17Z
Mon3tr: 基于单目相机的3D远程全息通信系统

Mon3tr是一种创新的单目3D远程全息交互框架,结合3D高斯泼溅与摊销计算,利用普通单目摄像头和低带宽实现高保真全息体验,适用于远程办公、教育和医疗等场景。

Mon3tr: 基于单目相机的3D远程全息通信系统

实时互动网
实时互动网 · 2026-01-22T06:37:11Z
在线教程|精准图像分层,Qwen-Image-Layered突破目标图层编辑痛点,兼顾高保真与一致性

Qwen团队推出Qwen-Image-Layered模型,实现图像分层编辑,允许独立操作各个图层,提升编辑质量。该模型将图像分解为多个RGBA图层,确保高保真度。用户可在HyperAI官网体验该功能。

在线教程|精准图像分层,Qwen-Image-Layered突破目标图层编辑痛点,兼顾高保真与一致性

HyperAI超神经
HyperAI超神经 · 2025-12-26T08:19:59Z
在线教程|精准图像分层,Qwen-Image-Layered突破目标图层编辑痛点,兼顾高保真与一致性

Qwen团队推出Qwen-Image-Layered模型,实现图像分层编辑,用户可独立操作各图层,提升编辑质量。可在HyperAI官网体验,教程提供详细步骤。

在线教程|精准图像分层,Qwen-Image-Layered突破目标图层编辑痛点,兼顾高保真与一致性

HyperAI超神经
HyperAI超神经 · 2025-12-25T12:01:41Z
PDF Craft – 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换

PDF Craft 是一款基于 DeepSeek OCR 的开源软件,专注于将扫描版 PDF 转换为 Markdown 和 ePUB 格式,能够准确提取文本、公式和图表,提升可读性。用户可选择自托管或在线演示,但需满足一定的硬件要求。

PDF Craft – 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换

小众软件
小众软件 · 2025-12-18T12:21:18Z
在线教程丨微软开源VibeVoice,可实现90分钟4角色自然对话

微软开源的VibeVoice是一种新型文本转语音(TTS)合成技术,能够生成高保真、多说话人的长语音。该技术采用下一token扩散方法,显著提高了长序列处理的效率和音频质量,支持最多4名说话人的对话,表现超越现有模型。用户可通过HyperAI官网体验实时语音合成服务。

在线教程丨微软开源VibeVoice,可实现90分钟4角色自然对话

HyperAI超神经
HyperAI超神经 · 2025-12-16T04:05:07Z
微软在Windows 11中开发新技术解决蓝牙音频固有问题 实现高保真音质和语音通话

微软在Windows 11中推出新技术,解决蓝牙音频低质量问题。该技术支持低功耗蓝牙设备在使用麦克风时播放高保真立体声音频,改善了传统蓝牙音频的局限性。用户需使用Windows 11 24H2版及更新驱动程序才能体验此功能。

微软在Windows 11中开发新技术解决蓝牙音频固有问题 实现高保真音质和语音通话

蓝点网
蓝点网 · 2025-08-28T01:43:28Z
Unbabel 推出 TOWER+:多语言 LLM 高保真翻译与指令遵循的统一框架

大语言模型(LLM)推动了机器翻译的发展,但在翻译准确性与指令遵循之间存在挑战。TOWER+模型通过预训练和强化学习实现了翻译与对话能力的平衡,展现出优越的翻译质量和灵活性,适用于多种应用场景。

Unbabel 推出 TOWER+:多语言 LLM 高保真翻译与指令遵循的统一框架

实时互动网
实时互动网 · 2025-06-30T02:23:19Z

清华与腾讯联合研发的Scene Splatter模型基于视频扩散技术,从单张图像生成高保真3D场景,解决了几何扭曲和一致性问题。该模型通过动量引导生成多视角视频,显著提升三维场景重建效果。

视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖

量子位
量子位 · 2025-06-13T08:55:15Z
DeepSeek V3能生成图像吗?

DeepSeek是一家中国初创公司,推出了图像生成模型Janus-Pro-7B,性能优于OpenAI的DALL·E 3。Janus系列专注于高保真图像合成,广泛应用于创意设计和数据可视化,而DeepSeek V3则专注于文本理解和编码,不支持图像生成。

DeepSeek V3能生成图像吗?

DEV Community
DEV Community · 2025-05-30T12:45:18Z

本研究提出ClapFM-EVC框架,旨在解决高保真情感语音转换中的灵活性和可解释性问题。该框架通过自然语言提示或参考语音生成高质量的转换语音,并能够调节情感强度,研究结果验证了其有效性。

ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究利用卷积长短时记忆网络和自编码器,显著降低了金属材料晶粒生长模拟的计算成本,实现了比传统方法快89倍的预测效率,推动了材料科学的创新。

高保真晶粒生长建模:利用深度学习实现快速计算

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

InfiniteYou(InfU)是字节跳动推出的图像生成框架,基于Diffusion Transformers,能够保持人物身份一致性。它解决了身份相似度、图文对齐和生成质量等问题,采用InfuseNet提升身份保真度,并通过多阶段训练优化生成效果,表现超越现有方法。

在线教程丨字节开源 InfiniteYou 图像生成框架,实现高保真面部特征迁移

HyperAI超神经
HyperAI超神经 · 2025-04-11T06:57:02Z

本研究提出了一种名为“场景溅射”的动量框架,旨在从单幅图像生成3D场景,解决了现有视频生成模型在新视角生成中的视频长度限制和场景不一致问题。实验结果表明,该方法在高保真和一致性场景生成方面表现优越。

Scene Splatter: Momentum-Based Video Diffusion Model for 3D Scene Generation from a Single Image

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z
清华朱军团队 | 从点云到高保真三维网格:DeepMesh突破自回归生成瓶颈

清华大学朱军团队提出的DeepMesh方法,通过自回归生成框架,显著提升了三维网格生成能力,支持生成高达3万个面片,并结合几何质量与人类评价,优化了生成结果的结构与美观性,展现出在影视和游戏领域的应用潜力。

清华朱军团队 | 从点云到高保真三维网格:DeepMesh突破自回归生成瓶颈

机器之心
机器之心 · 2025-03-31T05:00:26Z

本研究解决了现有眼科基础模型在高保真眼底图像合成中对大规模数据集的依赖问题。提出的FundusGAN框架利用特征金字塔网络提取多尺度信息,从而有效保留视网膜结构并提升病理细节表现。实验证明,使用FundusGAN生成的图像显著提高了多种卷积神经网络架构的疾病分类准确率,证明其在眼科AI研究中对数据匮乏问题的有效应对。

FundusGAN:一种层次特征感知生成框架用于高保真眼底图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-22T00:00:00Z
亚马逊云科技推新方案,助力游戏开发者拓展变现机会

亚马逊云科技推出全托管游戏串流解决方案Amazon GameLift Streams,帮助开发者快速提供高保真、低延迟的游戏体验,支持多种设备,提升玩家参与度与销量,已有多家知名游戏公司采用。

亚马逊云科技推新方案,助力游戏开发者拓展变现机会

全球TMT-美通国际
全球TMT-美通国际 · 2025-03-13T03:11:36Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码