小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型

MOSS-Audio是一个开源音频理解模型,集成了语音转录、情感分析和环境声音理解等功能。其模块化设计包括音频编码器和大型语言模型,采用DeepStack跨层特征注入和时间感知表示技术,显著提升了音频处理能力。MOSS-Audio-8B-Thinking在音频理解基准测试中表现优异,准确率达到71.08%。

OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型

实时互动网
实时互动网 · 2026-04-28T03:00:32Z

谷歌推出的AI Edge Gallery应用在iPhone上支持离线运行Gemma 4模型,强调隐私保护和本地数据处理。核心功能包括代理技能、思考模式、图像识别和语音转录,适合开发者和AI爱好者。应用大小为35.4MB,符合欧盟法规。

2026 04 07 HackerNews

介绍 on SuperTechFans
介绍 on SuperTechFans · 2026-04-06T23:46:34Z

本期《派评》介绍了几款新应用:运动分析工具The Outsiders、照片处理工具Radiance+、离线语音转录Whistle和本地音乐播放器Pixel Play。The Outsiders专注运动表现与恢复,Radiance+提升照片亮度,Whistle支持多语言离线转录,Pixel Play提供丰富音乐体验。

派评 | 近期值得关注的 App

少数派
少数派 · 2025-12-08T09:54:32Z
GL Communications 通过自动语音转文本解决方案推进语音响应测试

GL Communications Inc.推出了一款自动语音转录服务器软件,能够将录音转为文本并进行分析,广泛应用于呼叫中心的IVR系统。该工具支持实时监控、准确转录,兼容多种网络协议,支持50多种语言,提高了IVR测试和语音提示验证的效率。

GL Communications 通过自动语音转文本解决方案推进语音响应测试

实时互动网
实时互动网 · 2025-01-07T03:21:17Z
想象一个完全适应你的工具。我们正在构建一个模块化的协作平台,重新定义团队合作。

Nexli是一款灵活易用的应用,支持加密聊天、语音记录转录及任务管理,用户可自定义角色和权限,简化协作流程。目前已推出测试版,欢迎反馈。

想象一个完全适应你的工具。我们正在构建一个模块化的协作平台,重新定义团队合作。

DEV Community
DEV Community · 2025-01-07T02:13:07Z
使用OpenAI Whisper和Streamlit构建语音转录与翻译应用

本文介绍如何使用Streamlit的st.audio_input小部件录制语音,并结合OpenAI的Whisper模型将语音转录或翻译为英文文本。用户需具备基本的Python知识和OpenAI API密钥。通过安装Streamlit及相关库,创建应用程序实现语音转录和翻译,并可下载转录文本。该项目展示了如何利用设备麦克风进行语音处理。

使用OpenAI Whisper和Streamlit构建语音转录与翻译应用

DEV Community
DEV Community · 2024-11-29T10:37:43Z

本文探讨了文本到音频音乐生成模型在长期音乐创作中的应用,特别是桌面角色扮演游戏(TRPG)的原声音乐生成。介绍了Babel Bardo系统,该系统利用大型语言模型将语音转录转换为音乐描述,从而提升音质和故事连贯性。

长篇文本到音乐生成的自适应提示:桌面角色扮演游戏原声音乐的案例研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

该研究提出了Differentiable Average Lagging (DAL)模型,用于追踪同步系统延迟,应用于机器翻译和语音转录。文章探讨了同步文本与语音翻译结合的方法,提出新的评估指标LAAL和ATD,分析翻译质量与延迟的权衡,旨在改善实时语音翻译的性能和评估框架。

CA*: 解决同时语音翻译中计算感知延迟评估的陷阱

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

Azure AI语音服务扩展功能,包括语音转文本、文本转语音、语音翻译、说话人识别和发音评估。开发者可通过SDK和API集成,适用于实时或批量应用。文章介绍了在教堂环境中的应用,如实时翻译和语音转录,提升多语言服务的便利性。情感分析和自定义语音功能增强用户体验。

探讨一些有趣的 Azure AI 语音 SDK/API 端点

DEV Community
DEV Community · 2024-09-24T03:22:30Z
苹果或将AI转录功能引入语音备忘录和笔记应用

苹果计划在iPhone上加入AI功能,包括实时转录语音备忘录和笔记应用,以及添加录音和AI摘要功能。这将方便学生和记者,节省时间。苹果CEO库克强调隐私保护。

苹果或将AI转录功能引入语音备忘录和笔记应用

The Verge
The Verge · 2024-05-10T16:17:31Z

该文章介绍了UCLA Phonetics Lab Archive的语音技术和比较语言学研究,以及他们提供的经过审核的语音转录和音素级对齐的语料库VoxAngeles。该语料库可用于定量音位类型学、跨语言音韵学、资源匮乏和多语言语音技术的研究。

UCLA 音韵实验室档案的音标分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-28T00:00:00Z

本文介绍了SlideAVSR数据集和DocWhisper模型。SlideAVSR数据集用于评估模型在演示录音中将语音转录为滑动演示文本的能力。DocWhisper模型在SlideAVSR数据集上验证了其有效性。

SlideAVSR:用于视听语音识别的论文解释视频数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-18T00:00:00Z

Whisper Transcription是一款支持100多种语言的语音转录文字工具,适用于Mac平台,支持离线转录。它具有录制和转录音频文件、导出字幕文件、快速转录、突出显示字词等功能。支持多种音频格式和批量转录,可导出为PDF或HTML。

[限免][Mac] 语音转录文字工具Whisper Transcription限免 支持中文

蓝点网
蓝点网 · 2023-12-02T12:50:48Z
在Fly GPU机器上进行转录

Fly.io推出了支持AI工作负载的GPU机器,用户可以通过简单的API调用快速创建和管理这些机器,以处理音频文件。Whisper Webservice提供了高效的语音转录功能,适合在Fly.io上使用。用户还可以创建Docker镜像,安装Nvidia驱动,以优化AI模型的运行效率。

在Fly GPU机器上进行转录

The Fly Blog
The Fly Blog · 2023-11-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码