小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种基于音段语音声学特征的深伪音频检测方法。这些特征与人类发音过程密切相关,难以被深伪模型复制。研究结果表明,某些音段特征在识别深伪音频方面表现优异,为法医学音频检测提供了新思路。

Forensic Deepfake Audio Detection Based on Segmental Speech Features

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出ChordFormer,结合卷积神经网络与变换器,解决大词汇量音频和弦识别中的样本不足问题,提升了2%的帧级和6%的类别级准确率。

ChordFormer:一种基于Conformer架构的大词汇音频和弦识别方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

使用OpenAI的Whisper模型为视频自动生成字幕。首先安装Miniconda和CUDA,创建whisper环境,安装cuDNN和PyTorch。然后使用Whisper识别音频生成字幕,最后用FFmpeg将字幕添加到视频中。

利用whisper为视频自动生成字幕

御坂研究所
御坂研究所 · 2025-01-02T10:37:24Z

最近的研究发现,现代音频生成模型能够生成高保真声音,与音乐、事件和人类活动相关。本文通过实验评估了合成音频在音频识别和语音相关建模中的质量,并展示了其潜力。

基于生成式基础模型的合成音频能辅助音频识别和语音建模吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

DiaCorrect是一种错误修正框架,可改进音频识别系统的输出。该方法包括两个卷积编码器和一个基于转换的解码器,通过利用输入录音和初始系统输出之间的相互作用,自动校正初始说话者活动以最小化识别错误。实验表明,DiaCorrect可以有效地改善初始模型的结果。

DiaCorrect: 说话人分离的纠错后端

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-15T00:00:00Z

该论文提出了一种面向低资源语言的强大的视觉语音识别方法,使用Whisper模型进行语言识别和基于音频的语音识别,从而在没有人工注释的情况下获得与人工注释标签相似的VSR性能,并提供了大规模无标注多语言数据库的自动标签。

利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码