华为云官方博客 ·

基于开发者空间 Notebook 进行 LoRA 微调 Whisper_base 实现语音识别

💡 原文中文，约13500字，阅读约需33分钟。

📝

内容提要

本实验搭建了一个基于云主机和Whisper语音识别系统的平台，结合云计算与深度学习技术，帮助开发者优化模型训练和进行语音识别处理，掌握数据预处理和模型训练等关键步骤。适合企业、开发者和学生，预计时长120分钟。

🎯

关键要点

本实验构建了一个基于云主机和Whisper语音识别系统的平台，结合云计算与深度学习技术。
Whisper语音识别系统使用端到端模型，能够将语音输入转换为文本输出。
实验适合企业、开发者和学生，预计时长120分钟。
用户需登录华为云开发者空间进行环境配置和数据集下载。
实验资源预计花费0元，使用开发者空间Notebook进行LoRA微调。
环境配置包括安装必要的Python库，如kagglehub、datasets、transformers等。
下载预训练数据和测试数据，并将其存放在指定文件夹中。
处理数据时需统一采样率为16kHz，并将数据转化为模型可接受的输入格式。
LoRA是一种轻量级微调方法，通过更新低秩矩阵来减少计算和存储开销。
微调模型可以提高语音识别的准确性和性能。
模型推理过程包括加载模型、构建pipeline、加载音频文件并进行语音识别。
最终结果将保存为JSON文件，包含音频文件及其转录文本。

🏷️

继续阅读

OpenAI也向开源项目开发者/维护者推出福利计划免费领取半年ChatGPT Pro订阅
OpenAI 向开源项目开发者提供 6 个月的 ChatGPT Pro 订阅，无需硬性要求，只要项目具有广泛使用或重要性即可申请，包含 Codex 安全功...
IT-Tools将众多实用的开发者工具汇聚于一个便捷的位置
IT-Tools是为开发者提供的工具集合，包含80多种工具，用户可在自托管实例中直接使用，简化工作流程。
如何构建一个适用于生产的WebRTC语音代理架构
本文介绍了使用LiveKit进行音频通话的JavaScript代码，涵盖连接、断开、重连等功能，并处理音频轨道播放和麦克风权限。用户可通过按钮开始或结束通话。
开发者有两种，一种注定要失败。Justin Searls访谈 [播客 #210]
Quincy Larson采访了软件工程师Justin Searls，他15年前共同创办了一家软件公司。尽管38岁时已退休，Searls现在专注于开源软件...
从原始数值识别嵌入模型
嵌入向量中的数字模式显著影响生成模型和推理指令。我们训练了一个小型变换器分类器，准确率达到87%。可以实时演示，粘贴任意嵌入向量以查看分类结果。
MOSS-TTS：基于 CAT 架构的解耦式生产级语音生成模型；打破单细胞分析壁垒：Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准
MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具，克服了单一模型在复杂场景中的局限，支持高保真语音、对话和实时交互，适用...

基于开发者空间 Notebook 进行 LoRA 微调 Whisper_base 实现语音识别

内容提要

关键要点

标签

继续阅读