本研究提出了多种基于卷积神经网络和视觉变换器的改进方法,旨在加速模型收敛并提升性能。通过引入归纳偏差、局部信息增强模块和混合架构,显著提高了图像分类、目标检测和语义分割任务的效果,展示了卷积与自注意力机制结合的优势。
我们提出了一个通用框架,能够识别不同模型部件在视觉转换器(ViTs)中的作用,并通过文本解释。应用于多种 ViT 变种,获得不同组件在特定图像特征方面的作用,以促进图像检索、可视化令牌重要性热图和减轻错误相关性等应用。
Retrieval-based-Voice-Conversion-WebUI 是一个基于 VITS 的变声框架,能够有效防止音色泄漏。该框架支持快速训练,适合低显卡性能,推荐使用至少10分钟的低底噪语音数据。它提供简单的网页界面,支持音色融合和人声分离,采用先进的音高提取算法,效果显著。
本文探讨了大型语言模型(LLMs)在语音合成中的应用,比较了多种集成方法,发现LLMs作为文本编码器的耦合效果最佳。研究提出的VITS2模型显著提高了语音的自然度和效率。此外,基于LLM的口语对话系统展现了良好的语音理解能力,ParrotTTS方法在自然度和适应性方面优于传统模型。
该论文介绍了DenseNet神经网络架构,通过连接每一层解决了权重消失和特征重用问题,提升了目标识别性能。研究比较了ResNet与DenseNet,提出了DSNet算法,表现优于ResNet且计算资源需求更少。此外,提出了MixNet以结合两者优点,提升参数效率。HyperDenseNet和ConTNet模型在多模式分割和图像分类任务中表现出色。
该文介绍了一种无监督对象定位方法,利用自我监督预训练特征,在图像中发现对象而无需手动注释。该方法能够在开放式视觉系统中进行感知任务,对于不知道数据集中包含哪些对象的情况下,能够发现对象。
该文介绍了DualToken-ViT视觉变换模型,它融合局部和全局信息,使用位置感知的全局标记来丰富全局信息,改进了图像的位置信息。在图像分类、物体检测和语义分割任务上进行广泛实验,展示了DualToken-ViT的有效性。
杜老师分享了一款自己训练音色模型并转换语音的工具,已整理成一键包。使用步骤包括解压、打开webui、录制声音、切片、预处理、写入配置文件和训练。如果需要使用模型,则切换到推理项。
本文介绍使用Colab免费云端服务器搭建深度学习环境,制作AI特朗普。详细介绍配置Colab和so-vits环境,使用HFModels类下载和管理Hugging Face模型。提供特朗普音色模型和配置文件进行线上推理的代码。需要注意长时间稳定GPU资源需付费订阅Colab pro服务。
本文介绍了如何构建训练集、进行数据清洗和切分。训练集需要选择具有歌手音色特质的歌曲,并使用noisereduce库进行降噪处理。数据切分可以使用audio-slicer库,将清唱样本切成小样本。最后,给出了训练配置文件,并介绍了如何进行训练。
[TOC] 前言: Apr 23,2023更新:现在已经可以正常访问,项目已存档并停止维护:https://github.com/svc-develop-team/so-vits-svc 更新:目前无法正常访问Github原项目地址,据说因为有人用它跑政治敏感的东西所以作者删库跑路了=_=如果属实那么只能手动上传整合包到服务器, 体验了一把最近很火的so-vits-svc...
完成下面两步后,将自动完成登录并继续当前操作。