数据特征包括:大量(如社交媒体、物联网)、高速(实时处理)、多样(文本、图像、视频)、真实性(确保准确性)和价值(提取有意义见解)。
本研究针对大语言模型在多样本上下文学习中的性能下降问题,提出了DrICL优化方法,通过差异化学习和基于优势的重加权目标,提升模型性能。实验结果表明,采用DrICL的模型在多个任务中实现了显著改进,同时开发的多样本ICL基准数据集(ICL-50)为未来研究提供了重要支持。
本研究探讨了生成模型在有限样本中学习规则的能力。通过GenRAVEN数据集,发现扩散模型在无条件生成中表现优异,但在面板补全上效果不佳;自回归模型在规则一致的面板补全上表现更强。这揭示了两者在规则学习和推理中的互补性与局限性。
本研究针对大语言模型在多样本解码策略中的效率问题,提出了一种新颖的算术采样方法。通过与传统的祖先采样进行对比,发现算术采样能够生成更具多样性的样本,从而在推理和翻译任务中显著提高表现,尤其是在GSM8K和WMT19任务上,准确率和COMET评分均有明显提升。
本研究提出了一种新算法,利用动态编程和关系图,解决推理模型仅在已知结构上表现良好的问题,实现对未知知识图谱的泛化,加速了结构化数据上的机器学习开发。
本文通过引入自然语言表示提升多目标跟踪模型的泛化能力,提出视觉上下文提示和视觉-语言混合模块,生成实例级伪文字描述。在MOT17上训练并在MOT20上验证,显著提升了跟踪器的性能。
这篇文章介绍了一种计算机视觉方法,可以检测物体部分并进行推理。通过使用自监督 DINOv2 ViT 的预训练 Transformer 视觉模型,可以放宽对发现的几何属性的限制。在测试中,该方法在细粒度分类任务上获得了显著的改进。
该论文提出了一种新的零样本跨模态翻译方法,通过将多语言语音和文本编码到联合的固定大小的表示空间中,然后比较不同的解码方法以实现跨语言和模态的零样本翻译。该方法在多个文本和语音翻译任务中取得了非常好的结果,特别是在Must-C上零样本语音翻译部分显著改善了最新技术的表现。
本研究解决了在大语言模型(LLM)中使用自一致性技术时的准确性和推理成本问题。我们提出的PEDAL方法,通过结合多样本提示与LLM聚合,实现了在文本生成任务中提高准确性,并且在SVAMP和ARC数据集上表现出比贪婪解码策略更好的准确性和更低的推理成本。
使用基于人物的多智能体框架进行辩论和讨论,以生成多样化且有说服力的论证,进一步改进了当前的语言模型生成表面的符号的问题。
单指标模型是高维回归问题,通过非线性变换,标签与输入相关。统计查询和低次多项式框架内计算高效算法所需的样本复杂度最低为Ω(d^k/2),其中k是与模型关联的生成指数。在SQ和LDP类中,只要k>2,计算与统计之间存在明显差距。提供了具有任意大生成指数k的目标函数示例。
近年来,端到端自动语音识别模型的演变令人瞩目。研究人员通过重新评分音素模型的最佳假设,提高了E2E模型的准确性。联合训练E2E模型与多样的建模单元可以显著提高模型准确性,为开发更可靠准确的ASR系统提供了新的见解。
本论文介绍了一种名为MGProto的新的原型分布生成学习方法,使用高斯混合模型表示原型分布,结合多样性目标函数提高表示能力和减少冗余,并实现了有效的异常样本检测。实验结果显示MGProto在分类和异常样本检测方面表现出最先进的性能和可解释性结果。
多语言机器翻译质量低,英文内容通过机器翻译转译成较低资源语言。研究对训练多语言大型语言模型提出疑虑。
该研究提出了一种基于轻量级适配器网络的方法,利用自然音频样本生成多样化和逼真的视频,并提出了一种新的评估度量(AV-Align)以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比,该方法生成的视频在内容和时间轴上都与输入音频更好地对齐,并且呈现更高的视觉质量和多样性。
谷歌艺术与文化在线平台推出了巴基斯坦美食博物馆,展示了90多个视频、100个故事和9000张高清照片,让人们通过不同的角度了解巴基斯坦美食文化。该项目得到了英国文化委员会的支持。
完成下面两步后,将自动完成登录并继续当前操作。