本文介绍了一种用于估计空中图像中不同对象(如汽车、建筑、船只等)数量的多类别对象计数任务。作者提出了一个基于 NWPU-MOC 数据集的多光谱、多类别对象计数框架,并通过使用双重注意力模块融合 RGB 和近红外特征,进而回归多通道密度地图。实验证明,该方法在性能上优于主流的计数算法。
该文章介绍了一种多阶段、多码本的高效神经TTS合成方法,使用VQ-VAE编码语音训练数据的Mel频谱图,并通过多阶段逐渐下采样,将其量化为多个具有不同时间分辨率的MSMC表示。神经声码器将预测的MSMCR转换为最终语音波形。实验证明,该方法在英语TTS数据库中性能优于基准值,同时低参数的紧凑版本也能保持高性能。
本文分享了作者使用 Obsidian 进行知识管理的经验和优化工作流程的方法,包括解决移动应用和本地搜索功能的问题,转变笔记风格,使用双链做 MOC 等。
I have a strange hobby where I look at people peronal home pages. I really enjoy reading peoples blogs and learning all sorts of interesting things about them. heh. it is a strange voyeuristic...
完成下面两步后,将自动完成登录并继续当前操作。