本研究探讨短文本数据聚类中的信息性与可解释性平衡,发现高斯混合模型能有效提高语义密度,但聚类数量过多会降低可解释性,建议聚类数量控制在16-22个之间。
本研究评估了12款开源语言模型在不同语言中的真实性,发现英语表现最佳,而其他语言(如巴斯克语)的真实性差异小于预期。研究提出利用机器翻译扩展真实性基准,并强调信息性的重要性。
本研究探讨了预测模型在协变量变化下的训练与测试不匹配问题,提出了一种分析方法,将基础预测器的推广性与加权保型风险控制效率关联。研究揭示了预测集的信息性、协变量变化程度及校准与训练集大小之间的关系,为提高模型预测效率提供理论依据。
本研究提出了一种利用大型语言模型自动评估儿童故事中目标词汇语义传达能力的方法,实验结果表明与人类判断的相关性显著提高,具有重要的教育意义。
本研究探讨了通过引入语义边增强传统共现网络的有效性,发现虚拟边对不同网络度量的影响各异,指导短文本应用中的指标选择。部分度量在引入虚拟边后信息性提升,而另一些则可能下降。
本研究探讨语言使用与词汇系统的关系,提出基于视觉空间的词汇信息度量。通过分析英语和普通话的颜色命名数据,发现最佳词汇系统可以让多个词汇适用于同一对象,提高沟通准确性并减少信息量。
本研究提出了UDD方法,解决了合成图像中未充分利用区域的问题,增强了合成数据集的信息性和区分性。实验证明,UDD在多种数据集上的性能优于现有方法,尤其在CIFAR-10和CIFAR-100上分别提高了4.0%和3.7%的性能。
通过使用抗体和抗原的序列和结构数据,本文提出了一种名为 MIPE 的多模态对比学习和相互信息估计的抗原表位和抗体表位预测方法,MIPE 通过最大化每个模态中与结合和非结合残基的表示并同时对齐单模态表示以获得有效的模态表示;为了利用空间交互信息,MIPE...
完成下面两步后,将自动完成登录并继续当前操作。