本文探讨大型语言模型(LLMs)如何在符号与连续语言认知方法之间架起桥梁,认为深度学习架构能够灵活处理连续和离散表示,从而促进形态句法知识的编码。这种灵活性可能是LLMs成功的关键因素。
该论文提出了一种新型手语矢量量化网络,通过向量量化生成手语姿势序列的离散表示,提升手语翻译性能。利用音素表示和数据增强技术,该方法在多个数据集上取得最佳BLEU-4得分,展示了手语自动翻译的潜力。
本文介绍了使用有限数量标量量化(FSQ)替代向量量化(VQ)的方法,通过将VAE表示投影到少量维度中,并将每个维度量化为固定值的小集合,实现离散表示。FSQ在图像生成、深度估计、上色和全景分割等任务中表现出竞争性表现,且不会出现代码本崩溃问题,也不需要复杂的机制来学习表达丰富的离散表示。
MoConVQ是一个基于物理的运动控制框架,利用离散表示实现高效的运动表征。通过学习运动嵌入,展示其对各种应用的多样性和鲁棒性,包括通用跟踪控制、交互式角色控制、基于物理的运动生成以及与大型语言模型的无缝集成。
该文介绍了一种使用有限数量标量量化(FSQ)替代向量量化(VQ)的方法,实现离散表示。作者在图像生成、深度估计、上色和全景分割等任务中使用了该方法,并获得了竞争性表现。
完成下面两步后,将自动完成登录并继续当前操作。