本研究探讨短文本数据聚类中的信息性与可解释性平衡,发现高斯混合模型能有效提高语义密度,但聚类数量过多会降低可解释性,建议聚类数量控制在16-22个之间。
本研究评估了12款开源语言模型在不同语言中的真实性,发现英语表现最佳,而其他语言(如巴斯克语)的真实性差异小于预期。研究提出利用机器翻译扩展真实性基准,并强调信息性的重要性。
本研究探讨了通过引入语义边增强传统共现网络的有效性,发现虚拟边对不同网络度量的影响各异,指导短文本应用中的指标选择。部分度量在引入虚拟边后信息性提升,而另一些则可能下降。
本文提出了一种优化框架,用于生成信息性和主题连贯性更强的时间线摘要。研究介绍了多种时间线摘要生成方法及评估指标,创建了DiverseSumm数据集以应对多样信息摘要的挑战,并分析了大型语言模型在此任务中的表现。实验结果表明,背景摘要机制和合适的模型在处理复杂事件时效果显著,为多语言新闻摘要任务提供了新思路。
通过使用抗体和抗原的序列和结构数据,本文提出了一种名为 MIPE 的多模态对比学习和相互信息估计的抗原表位和抗体表位预测方法,MIPE 通过最大化每个模态中与结合和非结合残基的表示并同时对齐单模态表示以获得有效的模态表示;为了利用空间交互信息,MIPE...
完成下面两步后,将自动完成登录并继续当前操作。