本文探讨了如何利用大型语言模型(LLMs)进行特征工程,通过将结构化数据与文本结合,提升下游模型性能。介绍了生成语义特征、智能缺失值填补、领域特定特征构建、混合嵌入空间和特征选择等五种技术,旨在提高数据处理的智能化和解释性。
本研究探讨大型语言模型(LLM)在代码理解方面的能力,发现其在调试真实程序时,81%的故障程序调试能力下降,表明LLM对代码的理解较为肤浅,主要依赖与语义无关的特征。
本文提出了一种名为SCAM-Net的新方法,旨在解决少样本图像分类中的监督崩溃问题。该方法借鉴人类互补学习系统,能够在有限样本中快速捕捉和整合语义特征。实验结果表明,该模型在多个基准数据集上表现优异,有望提升少样本学习效果。
本研究提出了SemHiTok,一种通过语义引导的层次化代码本实现的统一图像标记器,旨在解决多模态理解和生成中的训练挑战。该方法有效平衡了低级纹理特征与高级语义特征的提取,实验结果显示在256X256分辨率下达到了先进的rFID得分。
本研究提出了AnomalyControl框架,解决了异常合成方法在捕捉复杂特征方面的不足,通过跨模态语义特征学习,提高了合成异常样本的真实感和可控性。实验结果表明,该方法在异常合成任务中表现优异。
本研究提出了一种基于高斯的EmbodiedOcc框架,克服了现有3D占用预测方法在深度环境感知中的局限性。该方法通过动态更新局部区域,有效整合语义与结构特征,从而提高了预测的精度和扩展性。
本研究提出了一种结合统计和语义特征的新方法来评估越南语的可读性,显著提高了可读性分类的准确性,为越南文本的可读性研究奠定了基础。
本文研究书面语的信息编码和语义特征,分析高频词汇与主题的相关性,探讨信息密度对语言理解的影响,提出新的熵估算建议,并揭示写作过程的复杂性及其对创造力的支持。
本文介绍了一种基于图神经网络和拓扑地图的视觉导航新方法,验证了其在已知和未知环境中的优越性能。研究提出了结合语义特征和监督学习的导航解决方案,显著提高了长时间任务的效率。TopoNav框架通过主动拓扑映射和内在奖励机制,提升了自主机器人的导航准确性,适用于多种应用场景。
本文介绍了GATCluster,一种基于自监督高斯注意力网络的图像聚类方法,通过四个自学习任务实现目标导向的语义特征学习。实验结果表明,该方法在图像聚类方面优于现有技术。
本文提出了一种低成本的文本到图像生成方法,通过微调预训练模型中的文本嵌入,优化语义特征定位,避免特征混合,从而提升多概念生成效果。该方法在图像分类和物体检测中表现优越,有效解决零样本识别和小数据集适应问题,显著提高性能。
本研究提出了一种自然语言引导的框架,结合双向循环神经网络和语义连接进行视觉关系检测,特别在未预测关系上表现优异。通过整合视觉和语义特征,改进了零样本预测技术,并在多个数据集上取得最佳性能,提升了图像理解和检索的准确性。
使用端到端的自动语音识别模型代替传统的语音活动检测器,在处理长音频时表现更好,提供更好的声学特征和语义特征。实验结果显示,相比于传统方法,改进了8.5%的相对WER和减少了250ms的分割延迟。
通过使用高清地图,设计了一种单级探测器,能够提取几何和语义特征,并提出地图预测模块,从而提高三维物体探测器的效能和稳健性。实验证明该探测器在有无地图情况下优于现有技术水平,每秒20帧的运行速度。
本文介绍了MDCDP模块,通过引入注意机制融合视觉和语义特征,解决了文本识别中的困难问题。实验结果表明CDistNet在具有挑战性的识别场景中优于最近的方法,并取得了最新的准确性。
该研究通过微调预训练文本到图像扩散模型中的文本嵌入,实现了低成本的自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。该方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
本文介绍了一种利用高清地图提取几何和语义特征的单级探测器,并提出了一个地图预测模块,可以实时估计地图。实验结果表明,该探测器在有无地图情况下均优于现有技术水平,且运行速度达到每秒20帧。
该研究报告介绍了一种利用稀疏3D卷积提取语义特征的方法,并将其输入到类平衡的多头网络中进行三维物体检测。通过设计的样本策略,可以处理自动驾驶场景中的类别不平衡问题,并在nuScenes数据集上进一步提高了性能。该方法在nuScenes3D Detection Challenge中优于PointPillars基线,取得了最新的检测性能。
这篇文章介绍了一种基于Transformer的网络TransMatting,用于模拟具有大感受野的透明对象。通过重新设计trimap和使用可学习的三元标记,引入高级语义特征到自注意机制中。同时,使用小型卷积网络来利用全局特征和非背景掩模,指导多尺度特征传播,以维护透明对象的纹理结构。作者还创建了一个高分辨率的透明对象抠图数据集。实验结果显示,该方法相比当前最先进的方法具有显著的优势。
本研究提出了一种名为TopFormer的移动友好架构,以不同尺度的Token作为输入,产生具有尺度感知的语义特征,并将这些特征注入到相应的Token中以增强表示能力。该方法在多个语义分割数据集上优于CNN和ViT网络,并在ARM移动设备上实现了比MobileNetV3更高的平均交并比精度,同时,TopFormer的微型版本可以在ARM移动设备上实时推断。
完成下面两步后,将自动完成登录并继续当前操作。