数据特征包括:大量(如社交媒体、物联网)、高速(实时处理)、多样(文本、图像、视频)、真实性(确保准确性)和价值(提取有意义见解)。
本研究针对大语言模型在多样本上下文学习中的性能下降问题,提出了DrICL优化方法,通过差异化学习和基于优势的重加权目标,提升模型性能。实验结果表明,采用DrICL的模型在多个任务中实现了显著改进,同时开发的多样本ICL基准数据集(ICL-50)为未来研究提供了重要支持。
本研究针对大语言模型在多样本解码策略中的效率问题,提出了一种新颖的算术采样方法。通过与传统的祖先采样进行对比,发现算术采样能够生成更具多样性的样本,从而在推理和翻译任务中显著提高表现,尤其是在GSM8K和WMT19任务上,准确率和COMET评分均有明显提升。
本文研究了知识图谱的结构学习、知识获取与补全、时间知识图谱及其应用,提出了新的分类法,探讨了逻辑推理、节点嵌入策略及多视图知识图谱的查询解决方案,展示了基于图神经网络的推理能力和实验效果,强调了知识在学习技术中的重要性。
本文提出了一种基于自然语言描述的目标跟踪方法,旨在提升跟踪性能的灵活性和准确性。通过构建带语言注释的大型数据库和引入视觉-语言模块,显著增强了多目标跟踪的泛化能力。研究设计了统一的跟踪器UVLTrack,能够处理多种参考设置,并在多个数据集上表现优异。此外,提出的新基准VLT-MI和E.T.基准为多模态跟踪和视频理解提供了新的评估方法和见解。
本文介绍了基于transformer的物体再识别方法TransReID,提出了新颖模块以增强对细节和视角的鲁棒性,并在多个数据集上取得最佳结果。同时,研究了Vision transformers的注意力崩溃问题,提出Re-attention方法以提升模型性能。此外,探讨了自动人体部位对齐、SSA自注意力策略及UniFormer模型在图像分类和目标检测中的优越表现。
本文探讨了多语言神经机器翻译中的零样本翻译问题,提出了辅助损失、解码器参数共享和语言特定组件等改进方法。这些方法有效提升了翻译性能,尤其在零样本任务中显著提高了BLEU分数,接近传统方法的效果。
本研究解决了在大语言模型(LLM)中使用自一致性技术时的准确性和推理成本问题。我们提出的PEDAL方法,通过结合多样本提示与LLM聚合,实现了在文本生成任务中提高准确性,并且在SVAMP和ARC数据集上表现出比贪婪解码策略更好的准确性和更低的推理成本。
使用基于人物的多智能体框架进行辩论和讨论,以生成多样化且有说服力的论证,进一步改进了当前的语言模型生成表面的符号的问题。
本文研究了通过SGD优化的两层神经网络在学习未知函数时的表现,分析了不同模型的样本复杂度和运行时间。结果表明,适当的学习率和随机特征能显著提升学习效果,并在高维回归问题中实现更好的泛化性能。
该研究论文探讨了端到端自动语音识别(ASR)模型的分类与改进,分析了其对传统隐马尔科夫模型的影响。研究采用混合CTC-Attention方法优化中文发音检测,显著提高了性能。通过多样化训练数据和模块化培训框架,增强了模型的泛化能力,并提出将外部语言模型整合进E2E系统以降低词错误率。
本文介绍了多种基于原型的图像识别和自然语言处理方法,强调可解释性和异常样本检测的重要性。MGProto通过高斯混合模型提升分类性能,提出的自选模型和概念框架增强了模型的可解释性,解决了原型学习中的语义差距问题。
多语言机器翻译质量低,英文内容通过机器翻译转译成较低资源语言。研究对训练多语言大型语言模型提出疑虑。
该研究提出了一种基于轻量级适配器网络的方法,利用自然音频样本生成多样化和逼真的视频,并提出了一种新的评估度量(AV-Align)以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比,该方法生成的视频在内容和时间轴上都与输入音频更好地对齐,并且呈现更高的视觉质量和多样性。
谷歌艺术与文化在线平台推出了巴基斯坦美食博物馆,展示了90多个视频、100个故事和9000张高清照片,让人们通过不同的角度了解巴基斯坦美食文化。该项目得到了英国文化委员会的支持。
完成下面两步后,将自动完成登录并继续当前操作。