本文探讨了如何利用大型语言模型(LLMs)进行特征工程,通过将结构化数据与文本结合,提升下游模型性能。介绍了生成语义特征、智能缺失值填补、领域特定特征构建、混合嵌入空间和特征选择等五种技术,旨在提高数据处理的智能化和解释性。
本研究探讨大型语言模型(LLM)在代码理解方面的能力,发现其在调试真实程序时,81%的故障程序调试能力下降,表明LLM对代码的理解较为肤浅,主要依赖与语义无关的特征。
本文提出了一种名为SCAM-Net的新方法,旨在解决少样本图像分类中的监督崩溃问题。该方法借鉴人类互补学习系统,能够在有限样本中快速捕捉和整合语义特征。实验结果表明,该模型在多个基准数据集上表现优异,有望提升少样本学习效果。
本研究提出了SemHiTok,一种通过语义引导的层次化代码本实现的统一图像标记器,旨在解决多模态理解和生成中的训练挑战。该方法有效平衡了低级纹理特征与高级语义特征的提取,实验结果显示在256X256分辨率下达到了先进的rFID得分。
本研究提出了AnomalyControl框架,解决了异常合成方法在捕捉复杂特征方面的不足,通过跨模态语义特征学习,提高了合成异常样本的真实感和可控性。实验结果表明,该方法在异常合成任务中表现优异。
本研究提出了一种基于高斯的EmbodiedOcc框架,克服了现有3D占用预测方法在深度环境感知中的局限性。该方法通过动态更新局部区域,有效整合语义与结构特征,从而提高了预测的精度和扩展性。
本研究提出了一种结合统计和语义特征的新方法来评估越南语的可读性,显著提高了可读性分类的准确性,为越南文本的可读性研究奠定了基础。
本文研究书面语的信息编码和语义特征,分析高频词汇与主题的相关性,探讨信息密度对语言理解的影响,提出新的熵估算建议,并揭示写作过程的复杂性及其对创造力的支持。
本文介绍了一种基于图神经网络和拓扑地图的视觉导航新方法,验证了其在已知和未知环境中的优越性能。研究提出了结合语义特征和监督学习的导航解决方案,显著提高了长时间任务的效率。TopoNav框架通过主动拓扑映射和内在奖励机制,提升了自主机器人的导航准确性,适用于多种应用场景。
本文介绍了GATCluster,一种基于自监督高斯注意力网络的图像聚类方法,通过四个自学习任务实现目标导向的语义特征学习。实验结果表明,该方法在图像聚类方面优于现有技术。
我们提出了DynaVol-S,一个三维生成模型,能够在可微分的体素渲染框架中实现基于物体的学习。通过体素化物体中心来捕捉场景的三维特性,并通过反向渲染管道中的组合NeRF来优化这些体素特征。我们的方法整合二维语义特征,创建三维语义网格,通过多个解耦的体素网格来表示场景。DynaVol-S在动态场景的新视图合成和无监督分解任务中明显优于现有模型,通过同时考虑几何结构和语义特征,它有效地应对复杂物体交互的实际场景。此外,训练完成后,这些有明确意义的体素特征还使得我们能够实现2D场景分解方法无法实现的额外功能,比如通过编辑几何形状或操纵物体的运动轨迹来生成新的场景。
通过调控几何建模中的互信息,消除偏差,提高表面重建质量。利用语义和几何特征识别相关点,并增强互信息。
研究人员提出了一种新的方法来解决类别级别姿态估计的问题,利用预训练基础模型中的几何和语义特征,通过将2D特征投影到三维空间进行物体模型匹配。实验证明,该方法需要更少的数据量,并且具有更好的性能。
使用端到端的自动语音识别模型代替传统的语音活动检测器,在处理长音频时表现更好,提供更好的声学特征和语义特征。实验结果显示,相比于传统方法,改进了8.5%的相对WER和减少了250ms的分割延迟。
通过使用高清地图,设计了一种单级探测器,能够提取几何和语义特征,并提出地图预测模块,从而提高三维物体探测器的效能和稳健性。实验证明该探测器在有无地图情况下优于现有技术水平,每秒20帧的运行速度。
本文介绍了MDCDP模块,通过引入注意机制融合视觉和语义特征,解决了文本识别中的困难问题。实验结果表明CDistNet在具有挑战性的识别场景中优于最近的方法,并取得了最新的准确性。
该研究通过微调预训练文本到图像扩散模型中的文本嵌入,实现了低成本的自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。该方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
本文介绍了一种利用高清地图提取几何和语义特征的单级探测器,并提出了一个地图预测模块,可以实时估计地图。实验结果表明,该探测器在有无地图情况下均优于现有技术水平,且运行速度达到每秒20帧。
该研究报告介绍了一种利用稀疏3D卷积提取语义特征的方法,并将其输入到类平衡的多头网络中进行三维物体检测。通过设计的样本策略,可以处理自动驾驶场景中的类别不平衡问题,并在nuScenes数据集上进一步提高了性能。该方法在nuScenes3D Detection Challenge中优于PointPillars基线,取得了最新的检测性能。
这篇文章介绍了一种基于Transformer的网络TransMatting,用于模拟具有大感受野的透明对象。通过重新设计trimap和使用可学习的三元标记,引入高级语义特征到自注意机制中。同时,使用小型卷积网络来利用全局特征和非背景掩模,指导多尺度特征传播,以维护透明对象的纹理结构。作者还创建了一个高分辨率的透明对象抠图数据集。实验结果显示,该方法相比当前最先进的方法具有显著的优势。
完成下面两步后,将自动完成登录并继续当前操作。