小红花·文摘

本研究提出了多种基于卷积神经网络和视觉变换器的改进方法，旨在加速模型收敛并提升性能。通过引入归纳偏差、局部信息增强模块和混合架构，显著提高了图像分类、目标检测和语义分割任务的效果，展示了卷积与自注意力机制结合的优势。

使用卷积注入器适应预训练 ViTs 的视觉动作控制

BriefGPT - AI 论文速递 ·

我们提出了一个通用框架，能够识别不同模型部件在视觉转换器（ViTs）中的作用，并通过文本解释。应用于多种 ViT 变种，获得不同组件在特定图像特征方面的作用，以促进图像检索、可视化令牌重要性热图和减轻错误相关性等应用。

通过文本在 ViTs 中分解和解释图像表示超越 CLIP

BriefGPT - AI 论文速递 ·

基于 VITS 的变声框架：杜绝音色泄漏问题 | 开源日报 No.242

开源服务指南 ·

本文探讨了大型语言模型（LLMs）在语音合成中的应用，比较了多种集成方法，发现LLMs作为文本编码器的耦合效果最佳。研究提出的VITS2模型显著提高了语音的自然度和效率。此外，基于LLM的口语对话系统展现了良好的语音理解能力，ParrotTTS方法在自然度和适应性方面优于传统模型。

Llama-VITS: 基于语义意识的 TTS 合成增强

BriefGPT - AI 论文速递 ·

该论文介绍了DenseNet神经网络架构，通过连接每一层解决了权重消失和特征重用问题，提升了目标识别性能。研究比较了ResNet与DenseNet，提出了DSNet算法，表现优于ResNet且计算资源需求更少。此外，提出了MixNet以结合两者优点，提升参数效率。HyperDenseNet和ConTNet模型在多模式分割和图像分类任务中表现出色。

DenseNets 重装上阵：超越 ResNets 和 ViTs 的范式转变

BriefGPT - AI 论文速递 ·

该文介绍了一种无监督对象定位方法，利用自我监督预训练特征，在图像中发现对象而无需手动注释。该方法能够在开放式视觉系统中进行感知任务，对于不知道数据集中包含哪些对象的情况下，能够发现对象。

自监督 ViTs 时代的无监督对象定位调查

BriefGPT - AI 论文速递 ·

该文介绍了DualToken-ViT视觉变换模型，它融合局部和全局信息，使用位置感知的全局标记来丰富全局信息，改进了图像的位置信息。在图像分类、物体检测和语义分割任务上进行广泛实验，展示了DualToken-ViT的有效性。

CAIT：面向 ViTs 的高精度、快速推理和良好可迁移性的三赢压缩

BriefGPT - AI 论文速递 ·

杜老师分享了一款自己训练音色模型并转换语音的工具，已整理成一键包。使用步骤包括解压、打开webui、录制声音、切片、预处理、写入配置文件和训练。如果需要使用模型，则切换到推理项。

So-VITS-SVC 一键安装包分享

杜老师说 ·

云端炼丹,算力白嫖,基于云端GPU(Colab)使用So-vits库制作AI特朗普演唱《国际歌》

刘悦 ·

民谣女神唱流行，基于AI人工智能so-vits库训练自己的音色模型(叶蓓/Python3.10)

刘悦 ·

[TOC] 前言： Apr 23,2023更新：现在已经可以正常访问,项目已存档并停止维护:https://github.com/svc-develop-team/so-vits-svc 更新：目前无法正常访问Github原项目地址，据说因为有人用它跑政治敏感的东西所以作者删库跑路了=_=如果属实那么只能手动上传整合包到服务器，体验了一把最近很火的so-vits-svc...